このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241005となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# インコンテクスト学習に関する調査研究
A Survey on In-context Learning ( http://arxiv.org/abs/2301.00234v5 ) ライセンス: Link先を確認 | Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Jingyuan Ma, Rui Li, Heming Xia, Jingjing Xu, Zhiyong Wu, Tianyu Liu, Baobao Chang, Xu Sun, Lei Li, Zhifang Sui, | (参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、インコンテキスト学習(ICL)は自然言語処理(NLP)の新しいパラダイムとして登場し、LLMはいくつかの例で拡張されたコンテキストに基づいて予測を行う。
ICLを探索してLLMの能力を評価・外挿する重要な傾向である。
本稿では,ICLの進歩と課題を概観し,整理することを目的とする。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,迅速な設計戦略,関連する分析など,高度な手法を整理し,議論する。
さらに、データエンジニアリングや知識更新など、さまざまなICLアプリケーションシナリオについても検討する。
最後に、ICLの課題に対処し、さらなる研究の方向性を提案する。
ICLがどのように機能し、ICLを改善するかについて、私たちの研究がより深く研究されることを願っています。
With the increasing capabilities of large language models (LLMs), in-context learning (ICL) has emerged as a new paradigm for natural language processing (NLP), where LLMs make predictions based on contexts augmented with a few examples. It has been a significant trend to explore ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress and challenges of ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques, including training strategies, prompt designing strategies, and related analysis. Additionally, we explore various ICL application scenarios, such as data engineering and knowledge updating. Finally, we address the challenges of ICL and suggest potential directions for further research. We hope that our work can encourage more research on uncovering how ICL works and improving ICL. | 翻訳日:2024-11-09 15:24:36 公開日:2024-10-05 |
# 雑音を考慮した自己教師付き学習と効率的なエンコーダによる時系列符号化の改善
Improving Time Series Encoding with Noise-Aware Self-Supervised Learning and an Efficient Encoder ( http://arxiv.org/abs/2306.06579v2 ) ライセンス: Link先を確認 | Duy A. Nguyen, Trang H. Tran, Huy Hieu Pham, Phi Le Nguyen, Lam M. Nguyen, | (参考訳) 本研究では,自己教師付き手法を用いた時系列表現学習問題について検討する。
コントラスト学習はこの分野でよく知られており、シリーズから情報を抽出し、タスクに適した表現を生成するための強力な方法である。
時系列の特徴を捉える能力にもかかわらず、これらの手法は、しばしば重要な要因である、この種のデータに固有のノイズを見落としている。
さらに、効率的な軽量エンコーダアーキテクチャの開発には注目すべき注意が払われていない。
本研究は,自然時系列における雑音波信号の存在を考慮し,一貫した表現学習を促進する革新的な学習戦略を提案することによって,これらのギャップに対処する。
さらに,インセプションブロック内に拡張畳み込みを組み込んだエンコーダアーキテクチャを提案する。
実験結果から, 予測, 分類, 異常検出など, 様々なタスクにおいて, 最先端のアプローチを一貫して上回る結果が得られた。
特に,本手法はUCRデータセットの分類の3分の2以上で上位にランクされ,第2のアプローチと比較してパラメータの40%しか利用されていない。
CoInceptionフレームワークのソースコードはhttps://github.com/anhduy0911/CoInception.comからアクセスできます。
In this work, we investigate the time series representation learning problem using self-supervised techniques. Contrastive learning is well-known in this area as it is a powerful method for extracting information from the series and generating task-appropriate representations. Despite its proficiency in capturing time series characteristics, these techniques often overlook a critical factor - the inherent noise in this type of data, a consideration usually emphasized in general time series analysis. Moreover, there is a notable absence of attention to developing efficient yet lightweight encoder architectures, with an undue focus on delivering contrastive losses. Our work address these gaps by proposing an innovative training strategy that promotes consistent representation learning, accounting for the presence of noise-prone signals in natural time series. Furthermore, we propose an encoder architecture that incorporates dilated convolution within the Inception block, resulting in a scalable and robust network with a wide receptive field. Experimental findings underscore the effectiveness of our method, consistently outperforming state-of-the-art approaches across various tasks, including forecasting, classification, and abnormality detection. Notably, our method attains the top rank in over two-thirds of the classification UCR datasets, utilizing only 40% of the parameters compared to the second-best approach. Our source code for CoInception framework is accessible at https://github.com/anhduy0911/CoInception. | 翻訳日:2024-11-09 15:02:22 公開日:2024-10-05 |
# 長文ビデオ質問応答のためのグローバルセマンティクスの符号化と制御
Encoding and Controlling Global Semantics for Long-form Video Question Answering ( http://arxiv.org/abs/2405.19723v2 ) ライセンス: Link先を確認 | Thong Thanh Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu, | (参考訳) ビデオ質問応答( videoQA)システムを構築するためには,長時間ビデオに対して効果的に回答を求めることが不可欠である。
従来の手法では、長いビデオからフレームや領域を適応的に選択して計算を保存していた。
しかし、これはビデオのシーケンス全体に対する推論に失敗し、サブ最適パフォーマンスに繋がる。
この問題に対処するため,マルチモーダルトランスフォーマに状態空間層(SSL)を導入し,映像のグローバルセマンティクスを効率的に統合し,フレームや領域選択モジュールによる映像情報の損失を軽減する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
制御性をさらに高めるため,グローバルな意味論を促進するために,クロスモーダルな構成合同(C^3)の目的を導入する。
Ego-QAとMAD-QAはそれぞれ17.5分と1.9時間というかなり長いビデオを含む2つの新しいベンチマークを構築した。
大規模な実験は、これらの新しいデータセットと既存のデータセットに対する我々のフレームワークの優位性を実証している。
Seeking answers effectively for long videos is essential to build video question answering (videoQA) systems. Previous methods adaptively select frames and regions from long videos to save computations. However, this fails to reason over the whole sequence of video, leading to sub-optimal performance. To address this problem, we introduce a state space layer (SSL) into multi-modal Transformer to efficiently integrate global semantics of the video, which mitigates the video information loss caused by frame and region selection modules. Our SSL includes a gating unit to enable controllability over the flow of global semantics into visual representations. To further enhance the controllability, we introduce a cross-modal compositional congruence (C^3) objective to encourage global semantics aligned with the question. To rigorously evaluate long-form videoQA capacity, we construct two new benchmarks Ego-QA and MAD-QA featuring videos of considerably long length, i.e. 17.5 minutes and 1.9 hours, respectively. Extensive experiments demonstrate the superiority of our framework on these new as well as existing datasets. | 翻訳日:2024-11-09 02:07:29 公開日:2024-10-05 |
# 自然言語対実生成に関する調査研究
A Survey on Natural Language Counterfactual Generation ( http://arxiv.org/abs/2407.03993v2 ) ライセンス: Link先を確認 | Yongjie Wang, Xiaoqi Qiu, Yu Yue, Xu Guo, Zhiwei Zeng, Yuhong Feng, Zhiqi Shen, | (参考訳) 自然言語のカウンターファクト生成は、修正されたテキストが別のクラスに分類されるように、与えられたテキストを最小限に修正することを目的としている。
生成された反事実は、どの単語が結果に大きく影響するかを強調することによって、モデルの予測の背後にある推論に関する洞察を与える。
さらに、モデルフェアネスの問題を検出し、トレーニングデータを増強してモデルの堅牢性を高めるために使用することもできる。
様々なNLPタスクに対して、さまざまなモデルや方法論を用いて、カウンターファクトリーを生成するために、かなりの量の研究がなされている。
この分野での研究が急速に成長する中で、将来の研究者や開発者を導くために、体系的なレビューが不可欠である。
このギャップを埋めるため,本調査では,特に大規模言語モデルに基づくテキスト・デファクト・デファクト・ジェネレーション手法の概要を概観する。
生成手法を4つのグループに体系的に分類し、生成品質を評価するための指標を要約する新しい分類法を提案する。
最後に,現在進行中の研究課題について論じ,今後の研究の方向性について概説する。
Natural language counterfactual generation aims to minimally modify a given text such that the modified text will be classified into a different class. The generated counterfactuals provide insight into the reasoning behind a model's predictions by highlighting which words significantly influence the outcomes. Additionally, they can be used to detect model fairness issues and augment the training data to enhance the model's robustness. A substantial amount of research has been conducted to generate counterfactuals for various NLP tasks, employing different models and methodologies. With the rapid growth of studies in this field, a systematic review is crucial to guide future researchers and developers. To bridge this gap, this survey provides a comprehensive overview of textual counterfactual generation methods, particularly those based on Large Language Models. We propose a new taxonomy that systematically categorizes the generation methods into four groups and summarizes the metrics for evaluating the generation quality. Finally, we discuss ongoing research challenges and outline promising directions for future work. | 翻訳日:2024-11-08 23:57:53 公開日:2024-10-05 |
# 分岐プログラムを用いた量子クエリ空間下界境界
Quantum Query-Space Lower Bounds Using Branching Programs ( http://arxiv.org/abs/2407.06872v2 ) ライセンス: Link先を確認 | Debajyoti Bera, Tharrmashastha SAPV, | (参考訳) 分岐プログラムは時間空間の低い境界を研究するのに非常に人気がある。
Bera らは最近、一般化量子分岐プログラム aka のモデルを導入した。
量子分岐プログラムの以前の2つのモデルを一般化したGQBP。
本研究では,GQBPの制限バージョンについて検討し,量子クエリ回路のクエリ空間要求に対する限界を証明した。
制限されたバージョンに対する最初の明示的なクエリスペースの低いバウンドを示す。
良く研究されたOR$_n$決定問題(英語版)は、$n$サイズのブールアレイの少なくとも1つの位置が 1 であることから、有界な$Q^2 s = \Omega(n^2)$ を満たすことを証明し、$Q$ はクエリの数を表し、$s$ は GQBP の幅を表す。
次に、この問題を一般化して、ハミング距離が一定である2つの弦間の決定において、同じ境界が成り立つことを示す。
我々の結果は、任意の非コンスタント対称ブール関数の問合せ複雑性に基づく$\Omega(\sqrt{n})$-lowerの代替証明を生成する。
Branching programs are quite popular for studying time-space lower bounds. Bera et al. recently introduced the model of generalized quantum branching program aka. GQBP that generalized two earlier models of quantum branching programs. In this work we study a restricted version of GQBP with the motivation of proving bounds on the query-space requirement of quantum-query circuits. We show the first explicit query-space lower bound for our restricted version. We prove that the well-studied OR$_n$ decision problem, given a promise that at most one position of an $n$-sized Boolean array is a 1, satisfies the bound $Q^2 s = \Omega(n^2)$, where $Q$ denotes the number of queries and $s$ denotes the width of the GQBP. We then generalize the problem to show that the same bound holds for deciding between two strings with a constant Hamming distance; this gives us query-space lower bounds on problems such as Parity and Majority. Our results produce an alternative proof of the $\Omega(\sqrt{n})$-lower bound on the query complexity of any non-constant symmetric Boolean function. | 翻訳日:2024-11-08 23:02:19 公開日:2024-10-05 |
# アーキテクチャ変更のないビットレベル可逆変換器について
On Exact Bit-level Reversible Transformers Without Changing Architectures ( http://arxiv.org/abs/2407.09093v2 ) ライセンス: Link先を確認 | Guoqiang Zhang, J. P. Lewis, W. B. Kleijn, | (参考訳) トレーニングプロセスにおけるメモリ消費を低減するために、様々な可逆的ディープニューラルネットワーク(DNN)モデルが提案されている。
しかし、ほとんどの既存の可逆DNNは特別な非標準アーキテクチャを必要とするか、あるいは可逆性を実現するために既存のDNNアーキテクチャをかなり変更して構築されている。
本稿では,BDIA変換器について述べる。BDIA変換器はビットレベルのリバーシブル変換器であり,標準アーキテクチャを変更せずに推論を行う。
基本的な考え方は、まず各変圧器ブロックを通常の微分方程式(ODE)を解くためのオイラー積分近似として扱い、次にバイ方向性積分近似(BDIA)の技術を神経アーキテクチャに組み込み、アクティベーション量子化と共にビットレベルを正確に可逆化する。
トレーニングプロセスでは、BDIA変換器のハイパーパラメータ$\gamma$を2つの連続積分近似の平均化のために、トレーニングサンプルあたり$\{0.5, -0.5\}$の2つの値のうちの1つをランダムに取る。
その結果、BDIA変換器は、バイナリランダム変数の集合によってパラメータ化されたODEソルバのアンサンブルを訓練し、モデルを正規化し、検証精度を向上させることができる。
変圧器ブロック当たりの軽量側情報は、正確にビットレベルの可逆性を実現するためにバイナリ量子化損失を考慮するためにフォワードプロセスに格納する必要がある。
推論手順では、期待$\mathbb{E}(\gamma)=0$ は変換器と同一のBDIA変換器のアーキテクチャを活性化量子化へと導く。
画像分類と言語翻訳の両方における実験により、BDIA変換器は、トレーニングメモリをかなり少なくしながら、検証性能において従来の変換器よりも大幅に優れていたことがわかった。
Various reversible deep neural networks (DNN) models have been proposed to reduce memory consumption in the training process. However, almost all existing reversible DNNs either require special non-standard architectures or are constructed by modifying existing DNN architectures considerably to enable reversibility. In this work we present the BDIA-transformer, which is an exact bit-level reversible transformer that uses an unchanged standard architecture for inference. The basic idea is to first treat each transformer block as the Euler integration approximation for solving an ordinary differential equation (ODE) and then incorporate the technique of bidirectional integration approximation (BDIA) into the neural architecture, together with activation quantization to make it exactly bit-level reversible. In the training process, we let a hyper-parameter $\gamma$ in BDIA-transformer randomly take one of the two values $\{0.5, -0.5\}$ per training sample per transformer block for averaging every two consecutive integration approximations. As a result, BDIA-transformer can be viewed as training an ensemble of ODE solvers parameterized by a set of binary random variables, which regularizes the model and results in improved validation accuracy. Lightweight side information per transformer block is required to be stored in the forward process to account for binary quantization loss to enable exact bit-level reversibility. In the inference procedure, the expectation $\mathbb{E}(\gamma)=0$ is taken to make the resulting architectures of BDIA-transformer identical to transformers up to activation quantization. Our experiments in both image classification and language translation show that BDIA-transformers outperform their conventional counterparts significantly in terms of validation performance while also requiring considerably less training memory. | 翻訳日:2024-11-08 22:06:29 公開日:2024-10-05 |
# 知識に基づく大規模言語モデルの一貫性テスト
Knowledge-based Consistency Testing of Large Language Models ( http://arxiv.org/abs/2407.12830v2 ) ライセンス: Link先を確認 | Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay, | (参考訳) 本研究では,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に明らかにし,評価する。
具体的には、知識グラフを利用してテストケースを構築する自動テストフレームワーク(KonTest)を提案する。
KonTestは、意味論的に等価なクエリとテストオラクル(メタモルフィックまたはオントロジ的オラクル)の組み合わせによって、LLMの世界の知識の不整合を調査し、測定する。
KonTestはさらに、重み付きLLMモデルのアンサンブルを通じて、知識ギャップを緩和する。
最先端の4つのLLM(Falcon, Gemini, GPT3.5, Llama2)を用いて、KonTestは19.2%のエラーインジェクション(9979のテストインプットから1917のエラー)を生成することを示した。
また、全試験LLMの16.5%の知識ギャップも明らかにしている。
KonTestのテストスイートによって通知される緩和方法は、LLMの知識ギャップを32.48%削減する。
さらに, GPT3.5は知識構築において60%-68%しか有効ではないため, 知識ベース一貫性試験には適さないことを示した。
In this work, we systematically expose and measure the inconsistency and knowledge gaps of Large Language Models (LLMs). Specifically, we propose an automated testing framework (called KonTest) which leverages a knowledge graph to construct test cases. KonTest probes and measures the inconsistencies in the LLM's knowledge of the world via a combination of semantically-equivalent queries and test oracles (metamorphic or ontological oracle). KonTest further mitigates knowledge gaps via a weighted LLM model ensemble. Using four state-of-the-art LLMs (Falcon, Gemini, GPT3.5, and Llama2), we show that KonTest generates 19.2% error inducing inputs (1917 errors from 9979 test inputs). It also reveals a 16.5% knowledge gap across all tested LLMs. A mitigation method informed by KonTest's test suite reduces LLM knowledge gap by 32.48%. Our ablation study further shows that GPT3.5 is not suitable for knowledge-based consistency testing because it is only 60%-68% effective in knowledge construction. | 翻訳日:2024-11-08 20:25:29 公開日:2024-10-05 |
# ReAttention: 有限注意スコープによる学習自由無期限文脈
ReAttention: Training-Free Infinite Context with Finite Attention Scope ( http://arxiv.org/abs/2407.15176v2 ) ライセンス: Link先を確認 | Xiaoran Liu, Ruixiao Li, Qipeng Guo, Zhigeng Liu, Yuerong Song, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu, | (参考訳) LLM(Large Language Models)の長期コンテキスト機能は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用アプリケーションを制限する重要なボトルネックのままである。
LLMにおける文脈長の制約は、制限された事前訓練された位置情報と注意範囲を通して無限に長いコンテキスト内の意味的関係を効果的に、効率的にキャプチャできない自己認識機構から生じる。
本研究では,自己認識機構に基づくLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な,学習不要なアプローチである「textbf{ReAttention}」を提案する。
ReAttentionは、通常の位置認識自己注意の前に位置認識不要のトップ$kの注意を実行し、LLMを長さ外挿問題から解放する。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
さらに,LLaMA3.1-8B や Mistral-v0.3-7B などの主流 LLM にもReAttention を適用し,LLaMA3.2-3B-chat のコンテキスト長を 18$\times$ から 4M まで拡張できる。
また、TritonによるReAttentionの効率を改善し、追加のオーバーヘッドを伴わずに効率的な外挿を実現する。
The long-context capability of the Large Language Models (LLM) has made significant breakthroughs, but the maximum supported context length remains a critical bottleneck limiting their practical applications. The constraint of context length in LLMs arises from the self-attention mechanism, which cannot effectively and efficiently capture the semantic relationships within infinitely long contexts via the limited pre-trained positional information and attention scope. In this work, we propose \textbf{ReAttention}, a training-free approach enabling LLM based on the self-attention mechanism to support an infinite context with a finite attention scope under sufficient memory resources. ReAttention performs the position-agnostic top-$k$ attention before the ordinary position-aware self-attention, freeing LLMs from the length extrapolation issue. We validate the performance of ReAttention on the LongBench, L-Eval, and InfiniteBench and demonstrate that it is on par with traditional methods. Furthermore, we also apply ReAttention on mainstream LLMs, including LLaMA3.1-8B and Mistral-v0.3-7B, enabling them to support context lengths of at least 1M and even expanding the context length of LLaMA3.2-3B-chat by 128$\times$ to 4M without any further training in Needle-In-A-Haystack tests. We also improve the efficiency of ReAttention with Triton and achieve an efficient extrapolation without additional overhead. | 翻訳日:2024-11-08 15:56:37 公開日:2024-10-05 |
# SANGRIA: 外科的ワークフロー予測のための手術ビデオシーングラフ最適化
SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction ( http://arxiv.org/abs/2407.20214v2 ) ライセンス: Link先を確認 | Çağhan Köksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab, | (参考訳) グラフに基づく全体的シーン表現は外科的ワークフロー理解を容易にし、最近は大きな成功を収めている。
しかし, この課題は, 濃密に注釈付けされた手術シーンデータの入手が限られているため, しばしば妨げられる。
本研究では,下流作業における手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。
提案手法は,グラフベースのスペクトルクラスタリングの柔軟性と基礎モデルの一般化能力を利用して,学習可能な特性を持つ教師なしシーングラフを生成する。
時間的近傍の時間的一貫したクラスタを予測するために,連続するフレーム間の局所的なマッチングを用いて,空間グラフを疎結合で補強する。
動的シーングラフと位相セグメンテーションの下流タスクの時空間関係とノード特徴を協調的に最適化することにより、弱い位相ラベルのみを用いた手術ビデオにおけるセマンティックシーン理解とシーングラフ生成のコストとアノテーションに富んだタスクに対処する。
さらに、パイプライン内に効果的な中間シーン表現の不整合ステップを組み込むことで、私たちのソリューションは、CATARACTSデータセット上でのSOTAの精度を8%、F1スコアを10%向上させる。
Graph-based holistic scene representations facilitate surgical workflow understanding and have recently demonstrated significant success. However, this task is often hindered by the limited availability of densely annotated surgical scene data. In this work, we introduce an end-to-end framework for the generation and optimization of surgical scene graphs on a downstream task. Our approach leverages the flexibility of graph-based spectral clustering and the generalization capability of foundation models to generate unsupervised scene graphs with learnable properties. We reinforce the initial spatial graph with sparse temporal connections using local matches between consecutive frames to predict temporally consistent clusters across a temporal neighborhood. By jointly optimizing the spatiotemporal relations and node features of the dynamic scene graph with the downstream task of phase segmentation, we address the costly and annotation-burdensome task of semantic scene comprehension and scene graph generation in surgical videos using only weak surgical phase labels. Further, by incorporating effective intermediate scene representation disentanglement steps within the pipeline, our solution outperforms the SOTA on the CATARACTS dataset by 8% accuracy and 10% F1 score in surgical workflow recognition | 翻訳日:2024-11-08 14:16:02 公開日:2024-10-05 |
# 難解な数学質問のAIによる生成
AI-Assisted Generation of Difficult Math Questions ( http://arxiv.org/abs/2407.21009v3 ) ライセンス: Link先を確認 | Vedant Shah, Dingli Yu, Kaifeng Lyu, Simon Park, Jiatong Yu, Yinghui He, Nan Rosemary Ke, Michael Mozer, Yoshua Bengio, Sanjeev Arora, Anirudh Goyal, | (参考訳) 現在のLLMトレーニングは、数学的推論をコア能力として位置づけている。
公開されているソースが完全にタップされているため、多様で挑戦的な数学問題に対する需要は計り知れない。
人間の専門家だけを頼りにすることは時間も費用もかかるが、LSMが生み出す質問には必要な多様性と難易度が欠けていることが多い。
本稿では,LLMの強みとループ型アプローチを組み合わせることで,多種多様な難解な数学問題を生成する設計枠組みを提案する。
我々は,LLMのメタ認知能力(Didolkar et al , 2024)を活用し,既存の数学データセットからコア"スキル"を抽出する。
これらのスキルは、ランダムなコアスキルのペアでLLMに促すことによって、新しくて難しい質問を生成する基盤となる。
各質問における2つの異なるスキルの使用により、そのような質問を見つけることは、LLMと人間の両方にとって「配布外」タスクとなる。
私たちのパイプラインでは、マルチターンプロンプトを通じて質問やソリューションを反復的に生成し、洗練するためにLLMを採用しています。
人間のアノテータは質問を検証し、さらに洗練し、その効率はさらなるLSM相互作用によって向上する。
このパイプラインをMATHデータセット(Hendrycks et al , 2021)から抽出したスキルに適用することにより,MATH$^2$ – 高品質な数学質問のデータセットが得られた。
(a)MATH$^2$における全てのモデルのMATHよりも低い性能
(b)MATH$^2$の質問をコンテキスト内例として使用する場合,MATH上でのパフォーマンスが向上する。
数学に重点を置いているが、我々の方法論は構造化推論を必要とする他の領域に適用できるようであり、スケーラブルな監視のコンポーネントとして考えられる。
MATH$^2$における成功率はMATHの正方形であり、MATH$^2$における問題の解決には2つの異なる数学スキルの非自明な組み合わせが必要であることを示唆している。
Current LLM training positions mathematical reasoning as a core capability. With publicly available sources fully tapped, there is unmet demand for diverse and challenging math questions. Relying solely on human experts is both time-consuming and costly, while LLM-generated questions often lack the requisite diversity and difficulty. We present a design framework that combines the strengths of LLMs with a human-in-the-loop approach to generate a diverse array of challenging math questions. We leverage LLM metacognition skills [Didolkar et al., 2024] of a strong LLM to extract core "skills" from existing math datasets. These skills serve as the basis for generating novel and difficult questions by prompting the LLM with random pairs of core skills. The use of two different skills within each question makes finding such questions an "out of distribution" task for both LLMs and humans. Our pipeline employs LLMs to iteratively generate and refine questions and solutions through multiturn prompting. Human annotators then verify and further refine the questions, with their efficiency enhanced via further LLM interactions. Applying this pipeline on skills extracted from the MATH dataset [Hendrycks et al., 2021] resulted in MATH$^2$ - a dataset of higher-quality math questions, as evidenced by: (a) Lower performance of all models on MATH$^2$ than on MATH (b) Higher performance on MATH when using MATH$^2$ questions as in-context examples. Although focused on mathematics, our methodology seems applicable to other domains requiring structured reasoning, and potentially as a component of scalable oversight. Also of interest is a striking relationship observed between models' performance on the new dataset: the success rate on MATH$^2$ is the square on MATH, suggesting that successfully solving the question in MATH$^2$ requires a nontrivial combination of two distinct math skills. | 翻訳日:2024-11-08 13:51:33 公開日:2024-10-05 |
# ツイルド世界--対称性によるトモグラフィーの局所性の失敗-
Twirled worlds: symmetry-induced failures of tomographic locality ( http://arxiv.org/abs/2407.21688v2 ) ライセンス: Link先を確認 | Daniel Centeno, Marco Erba, David Schmid, John H. Selby, Robert W. Spekkens, Sina Soltani, Jacopo Surace, Alex Wilce, Yìlè Yīng, | (参考訳) トモグラフィーの局所性(英: Tomography locality)は、考えられる理論の風景の中で量子論を選ぶ公理を見つけるプログラムで一般的に用いられる原理である。
この原理は、任意の二部体のトモグラフィー特性を達成するための局所測定の十分性を主張している。
本研究では,この原理に反する多種多様な理論を生成するための簡単なスキームを開発することで,トモグラフィー的局所性の原理の意味を探求する。
このスキームでは、トモグラフィ的局所理論(古典的、量子的、後量子的)と物理対称性から始まり、その対称性の集合的作用に関して同変であるものすべてとのみに理論の過程を制限する。
得られた理論を、ツワール世界(twirled worlds)と呼ぶ。
トモグラフィー・ローカリティの失敗は、ツワール世界において至るところで見られる。
古典的ツワール世界におけるそのような失敗の可能性から、トモグラフィー的局所性(トモグラフィ的非局所性)の失敗は、オントロジカルホリズムを含まないと論じる。
また, 量子論を公理化して, 基本的地位を持つ超選択規則が存在するかどうかを論じる研究者の必要性も示した。
Tomographic locality is a principle commonly used in the program of finding axioms that pick out quantum theory within the landscape of possible theories. The principle asserts the sufficiency of local measurements for achieving a tomographic characterization of any bipartite state. In this work, we explore the meaning of the principle of tomographic locality by developing a simple scheme for generating a wide variety of theories that violate the principle. In this scheme, one starts with a tomographically local theory -- which can be classical, quantum or post-quantum -- and a physical symmetry, and one restricts the processes in the theory to all and only those that are covariant with respect to the collective action of that symmetry. We refer to the resulting theories as twirled worlds. We show that failures of tomographic locality are ubiquitous in twirled worlds. From the possibility of such failures in classical twirled worlds, we argue that the failure of tomographic locality (i.e., tomographic nonlocality) does not imply ontological holism. Our results also demonstrate the need for researchers seeking to axiomatize quantum theory to take a stand on the question of whether there are superselection rules that have a fundamental status. | 翻訳日:2024-11-08 13:40:32 公開日:2024-10-05 |
# Wave-RVFL:ウェーブロス関数に基づくランダムニューラルネットワーク
Wave-RVFL: A Randomized Neural Network Based on Wave Loss Function ( http://arxiv.org/abs/2408.02824v2 ) ライセンス: Link先を確認 | M. Sajid, A. Quadir, M. Tanveer, | (参考訳) ランダムベクトル汎関数リンク(RVFL)ネットワークは、機械学習の分野における強力な一般化能力についてよく考えられている。
しかし、その正方損失関数に固有の依存関係はノイズや外周の影響を受けやすい。
さらに、RVFLの未知パラメータの計算は、その拡張性を制約するトレーニングサンプル全体の行列逆転を必要とする。
これらの課題に対処するために、ウェーブロス関数を組み込んだRVFLモデルであるWave-RVFLを提案する。
本稿では,適応モーメント推定(Adam)アルゴリズムを用いて,ウェーブ-RVFLの最適化問題を定式化して解く。
Wave-RVFLは、偏差の過給化を防止し、ノイズと外れ値を管理するためのバランスの取れたアプローチを維持することにより、ノイズと外れ値に対する堅牢性を示す。
提案するWave-RVFLモデルは,複数のUCIデータセットに対して,ノイズや外れ値の追加の有無に関わらず,さまざまな領域やサイズで評価される。
実験結果から、Wave-RVFLの性能とロバスト性はベースラインモデルよりも優れており、非常に効果的でスケーラブルな分類ソリューションとして確立されている。
ソースコードとSuppplementary Materialはhttps://github.com/mtanveer1/Wave-RVFLで入手できる。
The random vector functional link (RVFL) network is well-regarded for its strong generalization capabilities in the field of machine learning. However, its inherent dependencies on the square loss function make it susceptible to noise and outliers. Furthermore, the calculation of RVFL's unknown parameters necessitates matrix inversion of the entire training sample, which constrains its scalability. To address these challenges, we propose the Wave-RVFL, an RVFL model incorporating the wave loss function. We formulate and solve the proposed optimization problem of the Wave-RVFL using the adaptive moment estimation (Adam) algorithm in a way that successfully eliminates the requirement for matrix inversion and significantly enhances scalability. The Wave-RVFL exhibits robustness against noise and outliers by preventing over-penalization of deviations, thereby maintaining a balanced approach to managing noise and outliers. The proposed Wave-RVFL model is evaluated on multiple UCI datasets, both with and without the addition of noise and outliers, across various domains and sizes. Empirical results affirm the superior performance and robustness of the Wave-RVFL compared to baseline models, establishing it as a highly effective and scalable classification solution. The source codes and the Supplementary Material are available at https://github.com/mtanveer1/Wave-RVFL. | 翻訳日:2024-11-08 12:55:50 公開日:2024-10-05 |
# K-Nearest Neighbor Augmentationによる分散ネットワーククラスタリングのためのVersatileフレームワーク
A Versatile Framework for Attributed Network Clustering via K-Nearest Neighbor Augmentation ( http://arxiv.org/abs/2408.05459v2 ) ライセンス: Link先を確認 | Yiran Li, Gongyao Guo, Jieming Shi, Renchi Yang, Shiqi Shen, Qing Li, Jun Luo, | (参考訳) ノード属性にエンティティ固有の情報を含む分散ネットワークは、ソーシャルネットワーク、eコマース、バイオインフォマティクスなどのモデリングにおいてユビキタスである。
そのネットワークトポロジーは、単純なグラフから高次相互作用を持つハイパーグラフ、別々の層を持つ多重グラフまで様々である。
重要なグラフマイニングタスクはノードクラスタリングであり、クラスタ内のノードが密接に接続され、類似した属性を共有するように、属性付きネットワークのノードを k 個の非結合クラスタに分割することを目的としている。
ノードや属性を介してマルチホップ接続をキャプチャして、複数のタイプの属性ネットワーク上で効果的なクラスタリングを行うことは非常に困難である。
本稿ではまず,属性付きハイパーグラフクラスタリング(AHC)に対する効率的なアプローチとして,AHCKAを提案する。
AHCKAは、ハイパグラフ上の属性情報の最適化利用のための、慎重に構築されたK-アレスト近傍増強戦略と、効果的なAHC目標を考案する共同ハイパーグラフランダムウォークモデルと、目標最適化のためのスピードアップ技術を備えた効率的な解法を含む。
提案手法は様々な属性付きネットワークに対して拡張可能であり,属性付きグラフクラスタリング(AGC),属性付き多重グラフクラスタリング(AMGC),およびAHCが可能な汎用属性付きネットワーククラスタリングフレームワークとしてANCKAを開発した。
さらに,GPUアクセラレーションに適したアルゴリズム設計によるANCKAを考案し,効率を向上する。
我々は,提案手法を8つの属性付きハイパーグラフ上の19の競合,6つの属性付きグラフ上の16の競合,および3つの属性付き多重グラフ上の16の競合と比較した。
Attributed networks containing entity-specific information in node attributes are ubiquitous in modeling social networks, e-commerce, bioinformatics, etc. Their inherent network topology ranges from simple graphs to hypergraphs with high-order interactions and multiplex graphs with separate layers. An important graph mining task is node clustering, aiming to partition the nodes of an attributed network into k disjoint clusters such that intra-cluster nodes are closely connected and share similar attributes, while inter-cluster nodes are far apart and dissimilar. It is highly challenging to capture multi-hop connections via nodes or attributes for effective clustering on multiple types of attributed networks. In this paper, we first present AHCKA as an efficient approach to attributed hypergraph clustering (AHC). AHCKA includes a carefully-crafted K-nearest neighbor augmentation strategy for the optimized exploitation of attribute information on hypergraphs, a joint hypergraph random walk model to devise an effective AHC objective, and an efficient solver with speedup techniques for the objective optimization. The proposed techniques are extensible to various types of attributed networks, and thus, we develop ANCKA as a versatile attributed network clustering framework, capable of attributed graph clustering (AGC), attributed multiplex graph clustering (AMGC), and AHC. Moreover, we devise ANCKA with algorithmic designs tailored for GPU acceleration to boost efficiency. We have conducted extensive experiments to compare our methods with 19 competitors on 8 attributed hypergraphs, 16 competitors on 6 attributed graphs, and 16 competitors on 3 attributed multiplex graphs, all demonstrating the superb clustering quality and efficiency of our methods. | 翻訳日:2024-11-08 12:00:35 公開日:2024-10-05 |
# 焦点を絞る:事前学習モデルのための学習最適化
Narrowing the Focus: Learned Optimizers for Pretrained Models ( http://arxiv.org/abs/2408.09310v3 ) ライセンス: Link先を確認 | Gus Kristiansen, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Anirudh Goyal, Jihwan Lee, Max Vladymyrov, | (参考訳) 現代のディープラーニングでは、モデルはオプティマイザを使用して勾配更新を適用することで学習され、様々な統計に基づいて更新を変換する。
最適化者は手作業で設計されることが多く、ハイパーパラメータをチューニングすることがトレーニングプロセスの重要な部分です。
学習されたオプティマイザはいくつかの最初の約束を示してきたが、一般にあらゆる問題に適用可能な一般的な最適化メカニズムとして失敗している。
一般的なオプティマイザを学ぶ代わりに、特定のトレーニング環境に専門化します。
ベースオプティマイザの集合によって提供される更新方向の層特異的な線形結合を学習し,その戦略を特定のモデルとデータセットに効果的に適応させる,新しいオプティマイザ手法を提案する。
画像分類タスクで評価すると、この特殊オプティマイザはAdamのような従来のオフ・ザ・シェルフ手法と既存の一般的な学習オプティマイザの両方よりも大幅に優れている。
さらに、モデル初期化に関する堅牢な一般化、目に見えないデータセットの評価、メタトレーニングの地平線を超えたトレーニング期間を示す。
In modern deep learning, the models are learned by applying gradient updates using an optimizer, which transforms the updates based on various statistics. Optimizers are often hand-designed and tuning their hyperparameters is a big part of the training process. Learned optimizers have shown some initial promise, but are generally unsuccessful as a general optimization mechanism applicable to every problem. In this work we explore a different direction: instead of learning general optimizers, we instead specialize them to a specific training environment. We propose a novel optimizer technique that learns a layer-specific linear combination of update directions provided by a set of base optimizers, effectively adapting its strategy to the specific model and dataset. When evaluated on image classification tasks, this specialized optimizer significantly outperforms both traditional off-the-shelf methods such as Adam, as well as existing general learned optimizers. Moreover, it demonstrates robust generalization with respect to model initialization, evaluating on unseen datasets, and training durations beyond its meta-training horizon. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-05 |
# HySem:非構造化表抽出のための文脈長最適化LDMパイプライン
HySem: A context length optimized LLM pipeline for unstructured tabular extraction ( http://arxiv.org/abs/2408.09434v2 ) ライセンス: Link先を確認 | Narayanan PP, Anantharaman Palacode Narayana Iyer, | (参考訳) 製薬業界における規制コンプライアンスの報告は詳細な表に依存しているが、その非構造化フォーマットと任意の内容のために、コンプライアンスを超えて利用されていないことが多い。
表データの抽出と意味表現は、多種多様な表の提示のために困難である。
大規模言語モデル(LLM)は意味表現にかなりの可能性を示すが、業界アプリケーションにとって重要な考慮事項である正確性やコンテキストサイズ制限に関連する課題に直面する。
我々は,HTMLテーブルから正確な意味的JSON表現を生成するために,コンテキスト長最適化技術を用いたパイプラインHySemを紹介する。
このアプローチでは、コストとプライバシに敏感な中小企業向けに特別に設計された、カスタムな微調整モデルを利用する。
HySemはコモディティハードウェア上で動作し、オープンソースモデルを活用する。HySemはオープンソースモデルの精度を上回り、OpenAI GPT-4oとベンチマークした場合に競合するパフォーマンスを提供する。
Regulatory compliance reporting in the pharmaceutical industry relies on detailed tables, but these are often under-utilized beyond compliance due to their unstructured format and arbitrary content. Extracting and semantically representing tabular data is challenging due to diverse table presentations. Large Language Models (LLMs) demonstrate substantial potential for semantic representation, yet they encounter challenges related to accuracy and context size limitations, which are crucial considerations for the industry applications. We introduce HySem, a pipeline that employs a novel context length optimization technique to generate accurate semantic JSON representations from HTML tables. This approach utilizes a custom fine-tuned model specifically designed for cost- and privacy-sensitive small and medium pharmaceutical enterprises. Running on commodity hardware and leveraging open-source models, HySem surpasses its peer open-source models in accuracy and provides competitive performance when benchmarked against OpenAI GPT-4o and effectively addresses context length limitations, which is a crucial factor for supporting larger tables. | 翻訳日:2024-11-08 06:55:48 公開日:2024-10-05 |
# 点群セマンティックセグメンテーションにおけるクラス不均衡の緩和のためのサブスペースプロトタイプガイダンス
Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2408.10537v2 ) ライセンス: Link先を確認 | Jiawei Han, Kaiqi Liu, Wei Li, Guangzhi Chen, | (参考訳) ポイントクラウドセマンティックセグメンテーションは、インテリジェントエージェントの認識を著しく向上させる。
それでも、セグメンテーションネットワークの識別能力は、異なるカテゴリで利用可能なサンプルの量に影響される。
本稿では,クラス不均衡による認知バイアスを軽減するために,サブスペースのプロトタイプガイダンス(\textbf{SPG})を導入し,セグメンテーションネットワークのトレーニングを指導する。
具体的には、点雲は最初、特徴部分空間の生成の初期条件を提供するために、カテゴリごとに独立点集合に分離される。
補助分岐はエンコーダと投影ヘッドで構成され、これらの点集合を別個の特徴部分空間にマッピングする。
その後、現在分離している部分空間から抽出された特徴プロトタイプと過去の部分空間のプロトタイプが組み合わさって、メインブランチの機能空間をガイドし、マイノリティカテゴリの特徴の識別性を高める。
また、主枝の特徴空間から派生したプロトタイプを用いて補助枝の訓練を指導し、ネットワーク全体の一貫した収束を維持するための監督ループを形成する。
大規模な公開ベンチマーク(S3DIS, ScanNet v2, ScanNet200, Toronto-3D)で実施された実験により, 提案手法はセグメンテーション性能を大幅に改善し, 最先端の手法を上回ることを示す。
コードは \url{https://github.com/Javion11/PointLiBR.git} で公開されている。
Point cloud semantic segmentation can significantly enhance the perception of an intelligent agent. Nevertheless, the discriminative capability of the segmentation network is influenced by the quantity of samples available for different categories. To mitigate the cognitive bias induced by class imbalance, this paper introduces a novel method, namely subspace prototype guidance (\textbf{SPG}), to guide the training of segmentation network. Specifically, the point cloud is initially separated into independent point sets by category to provide initial conditions for the generation of feature subspaces. The auxiliary branch which consists of an encoder and a projection head maps these point sets into separate feature subspaces. Subsequently, the feature prototypes which are extracted from the current separate subspaces and then combined with prototypes of historical subspaces guide the feature space of main branch to enhance the discriminability of features of minority categories. The prototypes derived from the feature space of main branch are also employed to guide the training of the auxiliary branch, forming a supervisory loop to maintain consistent convergence of the entire network. The experiments conducted on the large public benchmarks (i.e. S3DIS, ScanNet v2, ScanNet200, Toronto-3D) and collected real-world data illustrate that the proposed method significantly improves the segmentation performance and surpasses the state-of-the-art method. The code is available at \url{https://github.com/Javion11/PointLiBR.git}. | 翻訳日:2024-11-08 06:33:42 公開日:2024-10-05 |
# 適応型大言語モデルを用いた対数接尾辞変換学習の促進
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models ( http://arxiv.org/abs/2408.14866v2 ) ライセンス: Link先を確認 | Hongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh, | (参考訳) 言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
しかし、GCGは計算の非効率性に苦慮し、接尾辞の転送可能性やモデルやデータ間のスケーラビリティに関するさらなる調査を制限している。
本研究では,探索効率と接尾辞伝達性の関係を橋渡しする。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
具体的には、探索プロセスを容易にするために、事前探索において直接第一目標トークン最適化を用いる。
私たちは、クロスモデル、クロスデータ、そしてセルフトランスファーのシナリオにアプローチを適用します。
さらに,本手法のインターリーブ版であるi-DeGCGを導入し,自己伝達性を活用して探索プロセスを高速化する。
HarmBenchの実験は、様々なモデルとドメインにわたるアプローチの効率を実証している。
特に、我々のi-DeGCGはLlama2-chat-7bのベースラインを43.9$(+22.2$)と39.0$(+19.5$)で上回ります。
クロスモデル転送のさらなる解析は、効率的な探索のために接尾辞転送可能性を活用する上で、第1目標トークン最適化の重要な役割を示している。
Language Language Models (LLMs) face safety concerns due to potential misuse by malicious users. Recent red-teaming efforts have identified adversarial suffixes capable of jailbreaking LLMs using the gradient-based search algorithm Greedy Coordinate Gradient (GCG). However, GCG struggles with computational inefficiency, limiting further investigations regarding suffix transferability and scalability across models and data. In this work, we bridge the connection between search efficiency and suffix transferability. We propose a two-stage transfer learning framework, DeGCG, which decouples the search process into behavior-agnostic pre-searching and behavior-relevant post-searching. Specifically, we employ direct first target token optimization in pre-searching to facilitate the search process. We apply our approach to cross-model, cross-data, and self-transfer scenarios. Furthermore, we introduce an interleaved variant of our approach, i-DeGCG, which iteratively leverages self-transferability to accelerate the search process. Experiments on HarmBench demonstrate the efficiency of our approach across various models and domains. Notably, our i-DeGCG outperforms the baseline on Llama2-chat-7b with ASRs of $43.9$ ($+22.2$) and $39.0$ ($+19.5$) on valid and test sets, respectively. Further analysis on cross-model transfer indicates the pivotal role of first target token optimization in leveraging suffix transferability for efficient searching. | 翻訳日:2024-11-08 04:52:58 公開日:2024-10-05 |
# 浮遊強磁性体を用いた超軽量暗黒物質検出
Ultralight dark matter detection with levitated ferromagnets ( http://arxiv.org/abs/2408.15330v2 ) ライセンス: Link先を確認 | Saarik Kalia, Dmitry Budker, Derek F. Jackson Kimball, Wei Ji, Zhen Liu, Alexander O. Sushkov, Chris Timberlake, Hendrik Ulbricht, Andrea Vinante, Tao Wang, | (参考訳) 浮上した強磁性体は超精密磁気センサとして機能し、環境からの優れた隔離のために高品質な要因を示すことができる。
これらの機器は、アクシオンのようなダークマターやダークフォトンダークマターのような超軽量のダークマター候補の探索に利用できる。
物理的磁場を生成する軸-光子カップリングや運動混合に敏感であるのに加え、強磁性体は軸-電子カップリングによって生じる有効磁場(または「軸風」)にも敏感である。
直流磁場に対する誘電体強磁性体の動的特性はよく研究されているが、これらの結合はすべて交流磁場を発生させる。
本研究では,強磁性体が印加した交流磁場に対する応答について検討し,これらの結果を用いて,アキションや暗光黒物質に対する感度を予測した。
応用交流場によって誘導される運動の方向について特に注意を払っており、特に、応用場(電子スピンに類似)の周りで起こるか、あるいは磁場の平面(コンパス針に類似)でリブレートするかである。
既存の浮遊強磁性体は、コマグネトメーターやねじりバランス実験のような軸-電子カップリングに匹敵する感度を持つことを示す。
さらに、将来の設定は、超軽量の暗黒物質質量に対して、軸-電子結合、暗-光子運動混合、および軸-光子結合の感度の高いプローブとなる。
Levitated ferromagnets act as ultraprecise magnetometers, which can exhibit high quality factors due to their excellent isolation from the environment. These instruments can be utilized in searches for ultralight dark matter candidates, such as axionlike dark matter or dark-photon dark matter. In addition to being sensitive to an axion-photon coupling or kinetic mixing, which produce physical magnetic fields, ferromagnets are also sensitive to the effective magnetic field (or ``axion wind") produced by an axion-electron coupling. While the dynamics of a levitated ferromagnet in response to a DC magnetic field have been well studied, all of these couplings would produce AC fields. In this work, we study the response of a ferromagnet to an applied AC magnetic field and use these results to project their sensitivity to axion and dark-photon dark matter. We pay special attention to the direction of motion induced by an applied AC field, in particular, whether it precesses around the applied field (similar to an electron spin) or librates in the plane of the field (similar to a compass needle). We show that existing levitated ferromagnet setups can already have comparable sensitivity to an axion-electron coupling as comagnetometer or torsion balance experiments. In addition, future setups can become sensitive probes of axion-electron coupling, dark-photon kinetic mixing, and axion-photon coupling, for ultralight dark matter masses $m_\mathrm{DM}\lesssim\mathrm{feV}$. | 翻訳日:2024-11-08 04:41:58 公開日:2024-10-05 |
# アフリカ4言語に対するFLORES評価データセットの修正
Correcting FLORES Evaluation Dataset for Four African Languages ( http://arxiv.org/abs/2409.00626v2 ) ライセンス: Link先を確認 | Idris Abdulmumin, Sthembiso Mkhwanazi, Mahlatse S. Mbooi, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Neo Putini, Miehleketo Mathebula, Matimba Shingange, Tajuddeen Gwadabe, Vukosi Marivate, | (参考訳) 本稿では,アフリカ4言語(Hausa,Northern Sotho (Sepedi),Xitsonga,isiZulu)に対するFLORES評価データセットの修正について述べる。
オリジナルのデータセットは低リソース言語をカバーしているが、レビューされた言語では様々な不整合や不正確性を示しており、自然言語処理(NLP)における下流タスクの評価の完全性、特に機械翻訳を妨げている可能性がある。
ネイティブスピーカーによる綿密なレビュープロセスを通じて、いくつかの修正と実装が行われ、データセットの全体的な品質と信頼性が改善された。
各言語に対して、遭遇した誤りの簡潔な要約と、既存のデータセットと修正されたデータセットの差を測定する統計分析を提供する。
我々は,この修正によってデータの言語的正確性や信頼性が向上し,アフリカ4言語を含むNLPタスクをより効果的に評価できると考えている。
最後に,言語的正確性と文化的関連性を確保するため,低リソース言語における今後の翻訳作業として,各段階におけるネイティブ話者の活発な関与を優先することを推奨する。
This paper describes the corrections made to the FLORES evaluation (dev and devtest) dataset for four African languages, namely Hausa, Northern Sotho (Sepedi), Xitsonga, and isiZulu. The original dataset, though groundbreaking in its coverage of low-resource languages, exhibited various inconsistencies and inaccuracies in the reviewed languages that could potentially hinder the integrity of the evaluation of downstream tasks in natural language processing (NLP), especially machine translation. Through a meticulous review process by native speakers, several corrections were identified and implemented, improving the overall quality and reliability of the dataset. For each language, we provide a concise summary of the errors encountered and corrected and also present some statistical analysis that measures the difference between the existing and corrected datasets. We believe that our corrections improve the linguistic accuracy and reliability of the data and, thereby, contribute to a more effective evaluation of NLP tasks involving the four African languages. Finally, we recommend that future translation efforts, particularly in low-resource languages, prioritize the active involvement of native speakers at every stage of the process to ensure linguistic accuracy and cultural relevance. | 翻訳日:2024-11-08 03:46:24 公開日:2024-10-05 |
# ロボットナビゲーションのための因果対応変圧器ネットワーク
Causality-Aware Transformer Networks for Robotic Navigation ( http://arxiv.org/abs/2409.02669v2 ) ライセンス: Link先を確認 | Ruoyu Wang, Yao Liu, Yuanjiang Cao, Lina Yao, | (参考訳) Visual Navigationの現在の研究は、改善の機会を明らかにしている。
第一に、RNNとTransformerの直接的な採用は、Embodied AIと従来のシーケンシャルなデータモデリングとの違いを見落とし、Embodied AIタスクのパフォーマンスを制限している可能性がある。
第二に、事前訓練されたモジュールやデータセット固有のロジックといったタスク固有の設定への依存は、これらのメソッドの一般化性を損なう。
これらの制約に対処するために、当初はナビゲーションタスクと他のシーケンシャルなデータタスクのユニークな違いを因果レンズを通して探索し、従来のシーケンシャルなナビゲーション手法の欠如を解明するための因果的枠組みを提示した。
この因果的視点を活用することで、モデル環境理解能力を高めるための因果理解モジュールを備えたナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
一方,本手法はタスク固有の帰納バイアスを欠いているため,エンド・ツー・エンド方式で訓練することができる。
実験的な評価により、我々の方法論は、様々な設定、タスク、シミュレーション環境におけるベンチマーク性能を一貫して上回っていることが示される。
大規模なアブレーション研究により、性能向上は、強化学習と監視学習の両方の設定の有効性と効率を示すCausal Understanding Moduleによるものであることが判明した。
Current research in Visual Navigation reveals opportunities for improvement. First, the direct adoption of RNNs and Transformers often overlooks the specific differences between Embodied AI and traditional sequential data modelling, potentially limiting its performance in Embodied AI tasks. Second, the reliance on task-specific configurations, such as pre-trained modules and dataset-specific logic, compromises the generalizability of these methods. We address these constraints by initially exploring the unique differences between Navigation tasks and other sequential data tasks through the lens of Causality, presenting a causal framework to elucidate the inadequacies of conventional sequential methods for Navigation. By leveraging this causal perspective, we propose Causality-Aware Transformer (CAT) Networks for Navigation, featuring a Causal Understanding Module to enhance the models's Environmental Understanding capability. Meanwhile, our method is devoid of task-specific inductive biases and can be trained in an End-to-End manner, which enhances the method's generalizability across various contexts. Empirical evaluations demonstrate that our methodology consistently surpasses benchmark performances across a spectrum of settings, tasks and simulation environments. Extensive ablation studies reveal that the performance gains can be attributed to the Causal Understanding Module, which demonstrates effectiveness and efficiency in both Reinforcement Learning and Supervised Learning settings. | 翻訳日:2024-11-07 23:34:03 公開日:2024-10-05 |
# 認識論的視点から見た独立性制約付きアンタングル表現学習
Independence Constrained Disentangled Representation Learning from Epistemological Perspective ( http://arxiv.org/abs/2409.02672v2 ) ライセンス: Link先を確認 | Ruoyu Wang, Lina Yao, | (参考訳) Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。
それでも、非絡み合い表現学習の目的に対する普遍的に受け入れられた定義については合意が得られていない。
特に、潜在変数が相互独立であるかどうかに関して、かなりの量の議論がある。
本稿では,認識論と不整合表現学習の概念的橋渡しを確立することにより,潜伏変数間の相互関係に関するこれらの議論を考察する。
そして、これらの学際的概念に触発されて、この問題に関する以前の議論に対する一般的な解決策を提供するために、2段階の潜在空間フレームワークを導入する。
最後に,GAN(Generative Adversarial Network)フレームワークにおける相互情報制約と独立性制約の統合を利用して,非絡み合い表現学習のための新しい手法を提案する。
実験結果から,提案手法は定量評価と定性評価の両方において,ベースラインアプローチを一貫して上回ることを示した。
提案手法は,複数の一般的なメトリクスに対して高い性能を示し,様々な意味的要因を解消する優れた能力を示し,制御可能な生成の質が向上し,アルゴリズムの説明可能性の向上に寄与する。
Disentangled Representation Learning aims to improve the explainability of deep learning methods by training a data encoder that identifies semantically meaningful latent variables in the data generation process. Nevertheless, there is no consensus regarding a universally accepted definition for the objective of disentangled representation learning. In particular, there is a considerable amount of discourse regarding whether should the latent variables be mutually independent or not. In this paper, we first investigate these arguments on the interrelationships between latent variables by establishing a conceptual bridge between Epistemology and Disentangled Representation Learning. Then, inspired by these interdisciplinary concepts, we introduce a two-level latent space framework to provide a general solution to the prior arguments on this issue. Finally, we propose a novel method for disentangled representation learning by employing an integration of mutual information constraint and independence constraint within the Generative Adversarial Network (GAN) framework. Experimental results demonstrate that our proposed method consistently outperforms baseline approaches in both quantitative and qualitative evaluations. The method exhibits strong performance across multiple commonly used metrics and demonstrates a great capability in disentangling various semantic factors, leading to an improved quality of controllable generation, which consequently benefits the explainability of the algorithm. | 翻訳日:2024-11-07 23:34:03 公開日:2024-10-05 |
# LLMの問題解決に有効な因果性を考慮した高精度微調整法
Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs ( http://arxiv.org/abs/2409.02686v2 ) ライセンス: Link先を確認 | Ruoyu Wang, Xiaoxuan Li, Lina Yao, | (参考訳) 大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に顕著な効率性を示してきたが、数学や物理学のような推論を必要とするタスクにしばしば苦労していることが研究によって明らかになった。
この制限は、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに関する真の理解なしにトークン分布を複製することを学ぶのかという疑問を提起する。
本稿では,この問題を掘り下げ,LLMの推論能力を高めることを目的とする。
まず,テキスト生成過程を注意・表現レベルで可視化することで,本モデルに真の推論能力があるかどうかを検討する。
次に, LLMの推論過程を因果的枠組みに定式化し, 可視化における問題点を公式に説明する。
最後に、この因果的枠組みに基づいて、モデルが一般的な問題解決スキルを抽出し、これらのスキルを異なる質問に適用するように促すことにより、モデルの推論能力を高めるために、新しいパラメータ効率の良い微調整(PEFT)手法であるDecon founded Causal Adaptation (DCA)を提案する。
実験の結果,本手法は複数のベンチマークで一貫した性能を示し,1.2万のチューナブルパラメータで他の微調整法と同等以上の結果が得られることがわかった。
これにより,LLMの全体的な精度と信頼性を向上させる上で,本手法の有効性と効率性を示す。
Large Language Models (LLMs) have demonstrated remarkable efficiency in tackling various tasks based on human instructions, but studies reveal that they often struggle with tasks requiring reasoning, such as math or physics. This limitation raises questions about whether LLMs truly comprehend embedded knowledge or merely learn to replicate the token distribution without a true understanding of the content. In this paper, we delve into this problem and aim to enhance the reasoning capabilities of LLMs. First, we investigate if the model has genuine reasoning capabilities by visualizing the text generation process at the attention and representation level. Then, we formulate the reasoning process of LLMs into a causal framework, which provides a formal explanation of the problems observed in the visualization. Finally, building upon this causal framework, we propose Deconfounded Causal Adaptation (DCA), a novel parameter-efficient fine-tuning (PEFT) method to enhance the model's reasoning capabilities by encouraging the model to extract the general problem-solving skills and apply these skills to different questions. Experiments show that our method outperforms the baseline consistently across multiple benchmarks, and with only 1.2M tunable parameters, we achieve better or comparable results to other fine-tuning methods. This demonstrates the effectiveness and efficiency of our method in improving the overall accuracy and reliability of LLMs. | 翻訳日:2024-11-07 23:34:03 公開日:2024-10-05 |
# WinoPron: 一貫性、カバレッジ、文法ケースのための英語Winogenderスキーマの再検討
WinoPron: Revisiting English Winogender Schemas for Consistency, Coverage, and Grammatical Case ( http://arxiv.org/abs/2409.05653v3 ) ライセンス: Link先を確認 | Vagrant Gautam, Julius Steuer, Eileen Bingert, Ray Johns, Anne Lauscher, Dietrich Klakow, | (参考訳) コア参照解決におけるバイアスとロバスト性の測定は重要な目標ですが、そのような測定は、測定に使用するツールと同程度にしかありません。
Winogender Schemas (Rudinger et al , 2018) は、基準解像度における性別バイアスを評価するために提案された影響力のあるデータセットである。
これらの問題を識別して修正し、新しいデータセットにコントリビュートする: WinoPron。
WinoPronを用いて、2つの最先端教師付きコア参照分解システム、SpanBERTとFLAN-T5の5つのサイズを評価し、全てのモデルにおいてアクセント代名詞の解決が困難であることを示す。
また,2進法を超えているコア参照分解能の偏差を評価するための新しい手法を提案する。
この方法により、代名詞集合(例, he vs. she)だけでなく、それらの集合の表面形(例, he vs. his)にもバイアス特性が変化することを示す。
While measuring bias and robustness in coreference resolution are important goals, such measurements are only as good as the tools we use to measure them. Winogender Schemas (Rudinger et al., 2018) are an influential dataset proposed to evaluate gender bias in coreference resolution, but a closer look reveals issues with the data that compromise its use for reliable evaluation, including treating different pronominal forms as equivalent, violations of template constraints, and typographical errors. We identify these issues and fix them, contributing a new dataset: WinoPron. Using WinoPron, we evaluate two state-of-the-art supervised coreference resolution systems, SpanBERT, and five sizes of FLAN-T5, and demonstrate that accusative pronouns are harder to resolve for all models. We also propose a new method to evaluate pronominal bias in coreference resolution that goes beyond the binary. With this method, we also show that bias characteristics vary not just across pronoun sets (e.g., he vs. she), but also across surface forms of those sets (e.g., him vs. his). | 翻訳日:2024-11-07 22:27:40 公開日:2024-10-05 |
# スーパーコンピューティングインフラに対する攻撃の回避のためのセキュリティテストベッド
Security Testbed for Preempting Attacks against Supercomputing Infrastructure ( http://arxiv.org/abs/2409.09602v2 ) ライセンス: Link先を確認 | Phuong Cao, Zbigniew Kalbarczyk, Ravishankar Iyer, | (参考訳) HPCのセキュリティにはユニークな脅威モデルがある。
信頼できない、集中型コンピューティングパワーを悪用する悪意のあるコードは、パブリッククラウドのよく隔離されたVMテナントとは異なり、HPCの共有されたオープンネットワーク環境に大きな影響を与える可能性がある。
したがって、被害前のスーパーコンピュータシステムをターゲットにしたプリエンプティブ攻撃が最優先事項である。
主な課題は、ノイズの多い攻撃の試みと信頼性の低い警告が、しばしば \emph{real attack} を隠蔽し、システムの完全性違反やデータ侵害のような恒久的な損傷を引き起こすことである。
本稿では,NCSA(National Center for Supercomputing Applications)におけるスーパーコンピュータのライブトラフィックに埋め込まれたセキュリティテストベッドについて述べる。
目的は、ペタスケールスーパーコンピュータにおける攻撃 \textit{preemption}、すなわちシステムの妥協とデータ漏洩を実証することである。
1) NCSAで過去20年間にキュレーションされた200以上のセキュリティインシデントの実際のセキュリティログにあるユニークな \textit{attack pattern} を特徴付けることによる洞察。
2)HPC環境における実際の攻撃を特定することの課題と、対話型攻撃解析におけるセキュリティ運用者を支援するための攻撃可視化ツールの展開。
3) 実世界のランサムウェアファミリーをプリエンプトするために、ファクターグラフベースのモデルのような新しいモデルを実行することによって、テストベッドの有用性を実証する。
Securing HPC has a unique threat model. Untrusted, malicious code exploiting the concentrated computing power may exert an outsized impact on the shared, open-networked environment in HPC, unlike well-isolated VM tenants in public clouds. Therefore, preempting attacks targeting supercomputing systems before damage remains the top security priority. The main challenge is that noisy attack attempts and unreliable alerts often mask \emph{real attacks}, causing permanent damages such as system integrity violations and data breaches. This paper describes a security testbed embedded in live traffic of a supercomputer at the National Center for Supercomputing Applications (NCSA). The objective is to demonstrate attack \textit{preemption}, i.e., stopping system compromise and data breaches at petascale supercomputers. Deployment of our testbed at NCSA enables the following key contributions: 1) Insights from characterizing unique \textit{attack patterns} found in real security logs of more than 200 security incidents curated in the past two decades at NCSA. 2) Deployment of an attack visualization tool to illustrate the challenges of identifying real attacks in HPC environments and to support security operators in interactive attack analyses. 3) Demonstrate the utility of the testbed by running novel models, such as Factor-Graph-based models, to preempt a real-world ransomware family. | 翻訳日:2024-11-07 20:46:36 公開日:2024-10-05 |
# 2次元準周期系における多フラクタル臨界相の探索
Exploring Multifractal Critical Phases in Two-Dimensional Quasiperiodic Systems ( http://arxiv.org/abs/2409.10254v2 ) ライセンス: Link先を確認 | Chao Yang, Weizhe Yang, Yongjian Wang, Yucheng Wang, | (参考訳) マルチフラクタル臨界相(MCP)は、基本的に拡大および局所化相と異なり、位置空間と運動量空間の両方で非局在化分布を示す。
MCPの研究は、主に1次元の準周期系に焦点を当てている。
本稿では,MPPを用いた2次元(2次元)準周期モデルを提案する。
本稿では、その位相図を示し、このモデルに基づいて2次元システムのMSPの特性をウェーブパケット拡散・輸送の観点から検討する。
さらに, 次のアレスト近傍ホッピング導入に伴う位相境界の移動について, フィデリティの感受性を計算して検討した。
最後に,超伝導回路における研究モデルの実現について考察する。
我々の研究は、2DシステムでMPPを探索するための扉を開く。
The multifractal critical phase (MCP) fundamentally differs from extended and localized phases, exhibiting delocalized distributions in both position and momentum spaces. The investigation on the MCP has largely focused on one-dimensional quasiperiodic systems. Here, we introduce a two-dimensional (2D) quasiperiodic model with a MCP. We present its phase diagram and investigate the characteristics of the 2D system's MCP in terms of wave packet diffusion and transport based on this model. We further investigate the movement of the phase boundary induced by the introduction of next-nearest-neighbor hopping by calculating the fidelity susceptibility. Finally, we consider how to realize our studied model in superconducting circuits. Our work opens the door to exploring MCP in 2D systems. | 翻訳日:2024-11-07 20:35:12 公開日:2024-10-05 |
# Event-ECC: 継続的な最適化によるイベントの非同期トラッキング
Event-ECC: Asynchronous Tracking of Events with Continuous Optimization ( http://arxiv.org/abs/2409.14564v1 ) ライセンス: Link先を確認 | Maria Zafeiri, Georgios Evangelidis, Emmanouil Psarakis, | (参考訳) 本稿では,イベントベースのトラッカーについて述べる。
個々のイベントの非同期処理の最近の進歩に触発されて,イベントの空間分布を異なる時間で整列する直接マッチング方式を開発した。
具体的には、拡張相関係数(ECC)基準を採用し、イベント・ECC(eECC)と呼ばれる1イベントあたりの2次元運動ワープを計算する追跡アルゴリズムを提案する。
時間の経過とともに機能の完全なトラッキングは、イベント毎に1回ずつ実行される反復的連続最適化問題としてキャストされる。
イベント処理の計算負担は、インクリメンタル処理と更新スキームの恩恵を受ける軽量バージョンによって軽減される。
提案アルゴリズムを公開データセット上でテストし、最先端のイベントベースの非同期トラッカーよりも精度と特徴年齢が向上したことを報告する。
In this paper, an event-based tracker is presented. Inspired by recent advances in asynchronous processing of individual events, we develop a direct matching scheme that aligns spatial distributions of events at different times. More specifically, we adopt the Enhanced Correlation Coefficient (ECC) criterion and propose a tracking algorithm that computes a 2D motion warp per single event, called event-ECC (eECC). The complete tracking of a feature along time is cast as a \emph{single} iterative continuous optimization problem, whereby every single iteration is executed per event. The computational burden of event-wise processing is alleviated through a lightweight version that benefits from incremental processing and updating scheme. We test the proposed algorithm on publicly available datasets and we report improvements in tracking accuracy and feature age over state-of-the-art event-based asynchronous trackers. | 翻訳日:2024-11-06 22:08:18 公開日:2024-10-05 |
# Event-ECC: 継続的な最適化によるイベントの非同期トラッキング
Event-ECC: Asynchronous Tracking of Events with Continuous Optimization ( http://arxiv.org/abs/2409.14564v2 ) ライセンス: Link先を確認 | Maria Zafeiri, Georgios Evangelidis, Emmanouil Psarakis, | (参考訳) 本稿では,イベントベースのトラッカーについて述べる。
個々のイベントの非同期処理の最近の進歩に触発されて,イベントの空間分布を異なる時間で整列する直接マッチング方式を開発した。
具体的には、拡張相関係数(ECC)基準を採用し、イベント・ECC(eECC)と呼ばれる1イベントあたりの2次元運動ワープを計算する追跡アルゴリズムを提案する。
時間の経過とともに機能の完全なトラッキングは、イベント毎に1回ずつ実行される反復的連続最適化問題としてキャストされる。
イベント処理の計算負担は、インクリメンタル処理と更新スキームの恩恵を受ける軽量バージョンによって軽減される。
提案アルゴリズムを公開データセット上でテストし、最先端のイベントベースの非同期トラッカーよりも精度と特徴年齢が向上したことを報告する。
In this paper, an event-based tracker is presented. Inspired by recent advances in asynchronous processing of individual events, we develop a direct matching scheme that aligns spatial distributions of events at different times. More specifically, we adopt the Enhanced Correlation Coefficient (ECC) criterion and propose a tracking algorithm that computes a 2D motion warp per single event, called event-ECC (eECC). The complete tracking of a feature along time is cast as a \emph{single} iterative continuous optimization problem, whereby every single iteration is executed per event. The computational burden of event-wise processing is alleviated through a lightweight version that benefits from incremental processing and updating scheme. We test the proposed algorithm on publicly available datasets and we report improvements in tracking accuracy and feature age over state-of-the-art event-based asynchronous trackers. | 翻訳日:2024-11-06 22:08:18 公開日:2024-10-05 |
# PixWizard:オープンランゲージインストラクションによる画像と画像の両立型ビジュアルアシスタント
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions ( http://arxiv.org/abs/2409.15278v2 ) ライセンス: Link先を確認 | Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li, | (参考訳) 本稿では,自由言語命令に基づく画像生成,操作,翻訳のための多機能なビジュアルアシスタントPixWizardを提案する。
この目的のために、様々な視覚タスクを統一された画像-テキスト-画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuning Datasetをキュレートする。
自然言語で詳細な命令テンプレートを構築することにより、テキスト・ツー・イメージ生成、画像復元、画像グラウンド化、画像の高密度化、画像編集、制御可能な生成、塗装・塗装などの多様な視覚タスクを包括的に含む。
さらに,我々はDiffusion Transformers (DiT) を基礎モデルとして採用し,その能力をフレキシブルな任意の解像度メカニズムで拡張し,入力のアスペクト比に基づいて動的に画像を処理し,人間の知覚過程と密接に一致させることができる。
このモデルは、入力画像からの効果的な情報の融合を容易にするために、構造認識と意味認識のガイダンスも組み込んでいる。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
コードとその関連リソースはhttps://github.com/AFeng-x/PixWizardで入手できる。
This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard | 翻訳日:2024-11-06 20:16:59 公開日:2024-10-05 |
# 大規模言語モデルの事前学習における重要データ選択のための多様性の調和
Harnessing Diversity for Important Data Selection in Pretraining Large Language Models ( http://arxiv.org/abs/2409.16986v2 ) ライセンス: Link先を確認 | Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ju Fan, Ye Yuan, Guoren Wang, Conghui He, | (参考訳) データの選択は、大規模で利用可能なトレーニングコーパスの品質の変化を考えると、大規模言語モデルの事前学習において非常に重要である。
これを実現するために、研究者は現在、データインスタンスの重要性を測定するためにデータインフルエンサーの利用を調査している。
その結果、最高スコアの上位$kのインスタンスを選択する。
しかし、このアプローチにはいくつかの制限がある。
1) 利用可能なすべてのデータの影響を計算するのは時間を要する。
2) 選択したデータインスタンスは十分に多様性がないため、事前訓練されたモデルの様々な下流タスクに効果的に一般化する能力を阻害する可能性がある。
本稿では、データの影響を利用して、品質と多様性を両立させるデータ選択手法である「texttt{Quad}」を紹介する。
特に、注意層が広範囲のセマンティックな詳細を捉えていることに注意して、アクセラレーションされた$iHVP$計算方法を注意層に適用し、データの影響を評価する能力、すなわち、$iHVP$の品質を向上しました。
多様性のために、 \texttt{Quad}はデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
各クラスタに対して、データを選択した場合、すべてのインスタンスの処理を防止するために、影響を評価するためにいくつかのサンプルを取ります。
選択するクラスタを決定するために,従来のマルチアーマッドバンド方式を用いて,各クラスタをアームとして扱う。
このアプローチでは、非常に影響力のあるインスタンス(高品質の保証)や、より頻度の低いクラスタ(多様性の保証)のクラスタが好まれるため、品質と多様性のバランスが良好になる。
Data selection is of great significance in pre-training large language models, given the variation in quality within the large-scale available training corpora. To achieve this, researchers are currently investigating the use of data influence to measure the importance of data instances, $i.e.,$ a high influence score indicates that incorporating this instance to the training set is likely to enhance the model performance. Consequently, they select the top-$k$ instances with the highest scores. However, this approach has several limitations. (1) Computing the influence of all available data is time-consuming. (2) The selected data instances are not diverse enough, which may hinder the pre-trained model's ability to generalize effectively to various downstream tasks. In this paper, we introduce \texttt{Quad}, a data selection approach that considers both quality and diversity by using data influence to achieve state-of-the-art pre-training results. In particular, noting that attention layers capture extensive semantic details, we have adapted the accelerated $iHVP$ computation methods for attention layers, enhancing our ability to evaluate the influence of data, $i.e.,$ its quality. For the diversity, \texttt{Quad} clusters the dataset into similar data instances within each cluster and diverse instances across different clusters. For each cluster, if we opt to select data from it, we take some samples to evaluate the influence to prevent processing all instances. To determine which clusters to select, we utilize the classic Multi-Armed Bandit method, treating each cluster as an arm. This approach favors clusters with highly influential instances (ensuring high quality) or clusters that have been selected less frequently (ensuring diversity), thereby well balancing between quality and diversity. | 翻訳日:2024-11-06 17:10:14 公開日:2024-10-05 |
# IDGen: LLM評価のためのアイテム識別誘起プロンプト生成
IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation ( http://arxiv.org/abs/2409.18892v2 ) ライセンス: Link先を確認 | Fan Lin, Shuyi Xie, Yong Dai, Wenlin Yao, Tianjiao Lang, Zishan Xu, Zhichao Hu, Xiao Xiao, Yuhong Liu, Yu Zhang, | (参考訳) 大きな言語モデル(LLM)は、複雑なタスクの管理にますます適しているため、評価セットは十分な差別性を維持するために、これらの進歩に追随しなければなりません。
教育評価において広く用いられている項目識別(ID)理論は、個々の試験項目がハイパフォーマーとローパフォーマーを区別する能力を測定する。
この理論に触発されて、モデル能力に応じて評価セットが継続的に更新され、洗練されることを保証するために、LCMを評価するためのID誘起プロンプト合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先します。
LLMの能力を総合的に評価するプロンプトを生成すると同時に、モデル間で有意義なパフォーマンスの違いを明らかにし、様々なタスクやドメイン間でそれらの相対的な強度と弱点を効果的に識別することができる。
高品質なデータを生成するために,一般化フレームワークに自己補正機構を組み込んで,迅速な識別と難易度予測のための2つのモデルを開発し,データ合成フレームワークを容易にし,データ合成研究評価に有用なツールを提供する。
生成したデータを用いて5つのSOTAモデルを評価する。
我々のデータの平均スコアは51.92で、変動は10.06である。
対照的に、以前の作品(すなわち、SELF-INSTRUCTとWizardLM)は平均スコアが67を超え、3.2以下である。
その結果、我々のフレームワークが生成したデータは、以前の研究と比べて、より困難で差別的であることが示された。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
As Large Language Models (LLMs) grow increasingly adept at managing complex tasks, the evaluation set must keep pace with these advancements to ensure it remains sufficiently discriminative. Item Discrimination (ID) theory, which is widely used in educational assessment, measures the ability of individual test items to differentiate between high and low performers. Inspired by this theory, we propose an ID-induced prompt synthesis framework for evaluating LLMs to ensure the evaluation set can continually update and refine according to model abilities. Our data synthesis framework prioritizes both breadth and specificity. It can generate prompts that comprehensively evaluate the capabilities of LLMs while revealing meaningful performance differences between models, allowing for effective discrimination of their relative strengths and weaknesses across various tasks and domains. To produce high-quality data, we incorporate a self-correct mechanism into our generalization framework, and develop two models to predict prompt discrimination and difficulty score to facilitate our data synthesis framework, contributing valuable tools to evaluation data synthesis research. We apply our generated data to evaluate five SOTA models. Our data achieves an average score of 51.92, accompanied by a variance of 10.06. By contrast, previous works (i.e., SELF-INSTRUCT and WizardLM) obtain an average score exceeding 67, with a variance below 3.2. The results demonstrate that the data generated by our framework is more challenging and discriminative compared to previous works. We will release a dataset of over 3,000 carefully crafted prompts to facilitate evaluation research of LLMs. | 翻訳日:2024-11-06 05:32:49 公開日:2024-10-05 |
# 共役型エネルギー準位交差と反交差による多鎖系のエキシトン輸送制御
The controlled exciton transport of the Multi-chain system by cavity-dressed energy level crossings and anticrossings ( http://arxiv.org/abs/2409.19224v1 ) ライセンス: Link先を確認 | Jia-Hui Wang, Yu-Ren Shi, Ji-Ming Gao, Zi-Fa Yu, Ju-Kui Xue, Fang-Qi Hu, | (参考訳) 様々な量子デバイスの達成された機能は、エクシトン輸送の制御と密接に関連している。
そこで本研究では, キャビティ内における結合形状の異なる2層多鎖系からなる2次元系のエキシトン輸送について検討した。
Tavis-Cummings と Su-Schrieffer-Heeger chain の2種類が検討されている。
鎖間のカップリングの2つのコンフォメーションは、正方形と三角形のタイプを含む。
スペクトルおよび定常状態力学による多鎖系のカップリング構成の違いに対して, 鎖間結合, 二量化パラメータ, 空洞, 鎖の長さ, 鎖数の影響を詳細に検討した。
その結果, キャビティが存在しない場合, エキシトン輸送効率は全鎖上のエキシトンの分布によって決定されることがわかった。
しかしながら、キャビティがエキシトン輸送電流と見なされる場合、系の効率は、コヒーレント励起とランダウ-ツェナー遷移が起こるゼロエネルギーモード付近のキャビティ被覆エネルギーレベル交差と反クロスによって制御される。
したがって、極性物質が重要な役割を果たす交差や対交において、エキシトン輸送を増強または抑制することができる。
さらに、エクシトン輸送効率は、長さと鎖の数の両方のパリティと密接に関連していることが判明した。
この研究は、多鎖キャビティ系における励起子輸送機構の理解に重要であり、制御可能かつ効率的な励起子輸送を持つ励起子デバイスの理論基盤を提供する。
The accomplished functions of a variety of quantum devices are closely associated with the controlling of exciton transport. To this end we study the exciton transport of the two-dimensional system consisting of two-level multichains with various coupling configurations in a cavity. Two types of the chains are considered, including Tavis-Cummings and Su-Schrieffer-Heeger chain. Two conformations of the coupling between chains are considered, including square and triangle type. The effects of the inter-chain coupling, dimerization parameter, the cavity, the length of chains, and the number of chains on the exciton transport are in detail investigated for different coupling configurations of the multi-chain system through spectra and steady-state dynamics. The results show that in the absence of a cavity the exciton transport effciency is decided by the distribution of population of exciton on whole chains. However, when the cavity is considered the exciton transport currents and effciency of the system is controlled by the cavity-dressed energy level crossings and anticrossings near zero-energy modes, at which the coherent excitation and Landau-Zener transitions occur. Therefore, the exciton transport can be enhanced or suppressed at the crossings and anticrossings, in which the polariton acts as crucial role. Besides, it is discovered that the exciton transport effciency is closely related with the parity of both the length and the number of chains. This work is important for the understanding of the exciton transport mechanism in the multichain-cavity system, and provides theoretical basis for excitonic devices with controllable and effcient exciton transport. | 翻訳日:2024-11-06 00:28:26 公開日:2024-10-05 |
# 共役型エネルギー準位交差と反交差による多鎖系のエキシトン輸送制御
The controlled exciton transport of the Multi-chain system by cavity-dressed energy level crossings and anticrossings ( http://arxiv.org/abs/2409.19224v2 ) ライセンス: Link先を確認 | Fang-Qi Hu, Yu-Ren Shi, Ji-Ming Gao, Zi-Fa Yu, Ju-Kui Xue, Jia-Hui Wang, | (参考訳) 様々な量子デバイスの達成された機能は、エクシトン輸送の制御と密接に関連している。
そこで本研究では, キャビティ内における結合形状の異なる2層多鎖系からなる2次元系のエキシトン輸送について検討した。
Tavis-Cummings と Su-Schrieffer-Heeger chain の2種類が検討されている。
鎖間のカップリングの2つのコンフォメーションは、正方形と三角形のタイプを含む。
スペクトルおよび定常状態力学による多鎖系のカップリング構成の違いに対して, 鎖間結合, 二量化パラメータ, 空洞, 鎖の長さ, 鎖数の影響を詳細に検討した。
その結果, キャビティが存在しない場合, エキシトン輸送効率は全鎖上のエキシトンの分布によって決定されることがわかった。
しかしながら、キャビティがエキシトン輸送電流と見なされる場合、系の効率は、コヒーレント励起とランダウ-ツェナー遷移が起こるゼロエネルギーモード付近のキャビティ被覆エネルギーレベル交差と反クロスによって制御される。
したがって、極性物質が重要な役割を果たす交差や対交において、エキシトン輸送を増強または抑制することができる。
さらに、エクシトン輸送効率は、長さと鎖の数の両方のパリティと密接に関連していることが判明した。
この研究は、多鎖キャビティ系における励起子輸送機構の理解に重要であり、制御可能かつ効率的な励起子輸送を持つ励起子デバイスの理論基盤を提供する。
The accomplished functions of a variety of quantum devices are closely associated with the controlling of exciton transport. To this end we study the exciton transport of the two-dimensional system consisting of two-level multichains with various coupling configurations in a cavity. Two types of the chains are considered, including Tavis-Cummings and Su-Schrieffer-Heeger chain. Two conformations of the coupling between chains are considered, including square and triangle type. The effects of the inter-chain coupling, dimerization parameter, the cavity, the length of chains, and the number of chains on the exciton transport are in detail investigated for different coupling configurations of the multi-chain system through spectra and steady-state dynamics. The results show that in the absence of a cavity the exciton transport effciency is decided by the distribution of population of exciton on whole chains. However, when the cavity is considered the exciton transport currents and effciency of the system is controlled by the cavity-dressed energy level crossings and anticrossings near zero-energy modes, at which the coherent excitation and Landau-Zener transitions occur. Therefore, the exciton transport can be enhanced or suppressed at the crossings and anticrossings, in which the polariton acts as crucial role. Besides, it is discovered that the exciton transport effciency is closely related with the parity of both the length and the number of chains. This work is important for the understanding of the exciton transport mechanism in the multichain-cavity system, and provides theoretical basis for excitonic devices with controllable and effcient exciton transport. | 翻訳日:2024-11-06 00:28:26 公開日:2024-10-05 |
# FairPIVARA:CLIPに基づくマルチモーダルモデルにおけるバイアスの低減と評価
FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models ( http://arxiv.org/abs/2409.19474v1 ) ライセンス: Link先を確認 | Diego A. B. Moreira, Alef Iury Ferreira, Gabriel Oliveira dos Santos, Luiz Pereira, João Medrado Gondim, Gustavo Bonil, Helena Maia, Nádia da Silva, Simone Tiemi Hashiguti, Jefersson A. dos Santos, Helio Pedrini, Sandra Avila, | (参考訳) 視覚言語モデルの大幅な進歩と広範囲な利用にもかかわらず、多くの研究がそれらの倫理的意味に対処してきた。
これらのモデルは、しばしば急いでレビューされたテキストと画像データセットからの広範なトレーニングデータを必要とし、高度に不均衡なデータセットと倫理的懸念をもたらす。
さらに、最初は英語でトレーニングされたモデルは、CLIPモデルのような他の言語で微調整されることが多い。
CAPIVARAはポルトガル語に適応したCLIPベースのモデルで、ゼロショットタスクでは強力なパフォーマンスを示している。
本稿では,視覚言語モデルにおける4種類の差別的実践を評価し,特徴埋め込みの最も影響の大きい次元を取り除き,それらを減らす方法であるFairPIVARAを導入する。
FairPIVARAの適用により、観測されたバイアスの最大98%が大幅に削減され、モデル内でよりバランスの取れた単語の分布が促進された。
私たちのモデルとコードは、https://github.com/hiaac-nlp/FairPIVARA.comで利用可能です。
Despite significant advancements and pervasive use of vision-language models, a paucity of studies has addressed their ethical implications. These models typically require extensive training data, often from hastily reviewed text and image datasets, leading to highly imbalanced datasets and ethical concerns. Additionally, models initially trained in English are frequently fine-tuned for other languages, such as the CLIP model, which can be expanded with more data to enhance capabilities but can add new biases. The CAPIVARA, a CLIP-based model adapted to Portuguese, has shown strong performance in zero-shot tasks. In this paper, we evaluate four different types of discriminatory practices within visual-language models and introduce FairPIVARA, a method to reduce them by removing the most affected dimensions of feature embeddings. The application of FairPIVARA has led to a significant reduction of up to 98% in observed biases while promoting a more balanced word distribution within the model. Our model and code are available at: https://github.com/hiaac-nlp/FairPIVARA. | 翻訳日:2024-11-05 22:57:44 公開日:2024-10-05 |
# FairPIVARA:CLIPに基づくマルチモーダルモデルにおけるバイアスの低減と評価
FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models ( http://arxiv.org/abs/2409.19474v2 ) ライセンス: Link先を確認 | Diego A. B. Moreira, Alef Iury Ferreira, Jhessica Silva, Gabriel Oliveira dos Santos, Luiz Pereira, João Medrado Gondim, Gustavo Bonil, Helena Maia, Nádia da Silva, Simone Tiemi Hashiguti, Jefersson A. dos Santos, Helio Pedrini, Sandra Avila, | (参考訳) 視覚言語モデルの大幅な進歩と広範囲な利用にもかかわらず、多くの研究がそれらの倫理的意味に対処してきた。
これらのモデルは、しばしば急いでレビューされたテキストと画像データセットからの広範なトレーニングデータを必要とし、高度に不均衡なデータセットと倫理的懸念をもたらす。
さらに、最初は英語でトレーニングされたモデルは、CLIPモデルのような他の言語で微調整されることが多い。
CAPIVARAはポルトガル語に適応したCLIPベースのモデルで、ゼロショットタスクでは強力なパフォーマンスを示している。
本稿では,視覚言語モデルにおける4種類の差別的実践を評価し,特徴埋め込みの最も影響の大きい次元を取り除き,それらを減らす方法であるFairPIVARAを導入する。
FairPIVARAの適用により、観測されたバイアスの最大98%が大幅に削減され、モデル内でよりバランスの取れた単語の分布が促進された。
私たちのモデルとコードは、https://github.com/hiaac-nlp/FairPIVARA.comで利用可能です。
Despite significant advancements and pervasive use of vision-language models, a paucity of studies has addressed their ethical implications. These models typically require extensive training data, often from hastily reviewed text and image datasets, leading to highly imbalanced datasets and ethical concerns. Additionally, models initially trained in English are frequently fine-tuned for other languages, such as the CLIP model, which can be expanded with more data to enhance capabilities but can add new biases. The CAPIVARA, a CLIP-based model adapted to Portuguese, has shown strong performance in zero-shot tasks. In this paper, we evaluate four different types of discriminatory practices within visual-language models and introduce FairPIVARA, a method to reduce them by removing the most affected dimensions of feature embeddings. The application of FairPIVARA has led to a significant reduction of up to 98% in observed biases while promoting a more balanced word distribution within the model. Our model and code are available at: https://github.com/hiaac-nlp/FairPIVARA. | 翻訳日:2024-11-05 22:57:44 公開日:2024-10-05 |
# テキスト・ツー・ミュージック・モデルと言語モデルの統合:長い構造を持つ楽曲を合成する
Integrating Text-to-Music Models with Language Models: Composing Long Structured Music Pieces ( http://arxiv.org/abs/2410.00344v2 ) ライセンス: Link先を確認 | Lilac Atassi, | (参考訳) 変圧器に基づく最近の音楽生成手法は,最大1分間のコンテキストウィンドウを有する。
これらの方法によって生成される音楽は、コンテキストウィンドウを超えてほとんど構造化されていない。
より長いコンテキストウィンドウでは、音楽データから長期構造を学ぶことは、極めて難しい問題である。
本稿では,テキスト・ツー・ミュージック・モデルと大規模言語モデルを統合することにより,形式付き音楽を生成することを提案する。
このような統合の課題に対する解決策について議論する。
実験の結果,提案手法は,高度に構造化され,組織化され,結合性が高い2.5分間の楽曲を生成できることがわかった。
Recent music generation methods based on transformers have a context window of up to a minute. The music generated by these methods are largely unstructured beyond the context window. With a longer context window, learning long scale structures from musical data is a prohibitively challenging problem. This paper proposes integrating a text-to-music model with a large language model to generate music with form. We discuss our solutions to the challenges of such integration. The experimental results show that the proposed method can generate 2.5-minute-long music that is highly structured, strongly organized, and cohesive. | 翻訳日:2024-11-05 06:16:28 公開日:2024-10-05 |
# テキスト・ツー・ミュージック・モデルと言語モデルの統合:長い構造を持つ楽曲を合成する
Integrating Text-to-Music Models with Language Models: Composing Long Structured Music Pieces ( http://arxiv.org/abs/2410.00344v3 ) ライセンス: Link先を確認 | Lilac Atassi, | (参考訳) 変圧器に基づく最近の音楽生成手法は,最大1分間のコンテキストウィンドウを有する。
これらの方法によって生成される音楽は、コンテキストウィンドウを超えてほとんど構造化されていない。
より長いコンテキストウィンドウでは、音楽データから長期構造を学ぶことは、極めて難しい問題である。
本稿では,テキスト・ツー・ミュージック・モデルと大規模言語モデルを統合することにより,形式付き音楽を生成することを提案する。
論文では、このような統合の課題に対する解決策について論じている。
実験の結果,提案手法は,高度に構造化され,組織化され,結合性が高い2.5分間の楽曲を生成できることがわかった。
Recent music generation methods based on transformers have a context window of up to a minute. The music generated by these methods is largely unstructured beyond the context window. With a longer context window, learning long-scale structures from musical data is a prohibitively challenging problem. This paper proposes integrating a text-to-music model with a large language model to generate music with form. The papers discusses the solutions to the challenges of such integration. The experimental results show that the proposed method can generate 2.5-minute-long music that is highly structured, strongly organized, and cohesive. | 翻訳日:2024-11-05 06:16:28 公開日:2024-10-05 |
# 敵のサフィックスも機能するかもしれない!
Adversarial Suffixes May Be Features Too! ( http://arxiv.org/abs/2410.00451v1 ) ライセンス: Link先を確認 | Wei Zhao, Zhe Li, Yige Li, Jun Sun, | (参考訳) GPT-4 や LLaMA 3 のような大規模言語モデル(LLM)は、安全確保の取り組みが進行中であるにもかかわらず、敵の接尾辞によって引き起こされるような有害な行動を引き起こす可能性のあるジェイルブレイク攻撃に対して脆弱なままである。
先行研究に基づいて,これらの逆行性接尾辞は単なるバグではなく,LCMの行動に支配的な特徴を表わす可能性があると仮定した。
この仮説を評価するために、我々はいくつかの実験を行った。
まず,良性特徴を逆接接尾辞として効果的に機能させること,すなわち,良性データセットからサンプル非依存の特徴を接尾辞の形で抽出する特徴抽出法を開発し,それらの接尾辞が安全アライメントを効果的に損なうことを示した。
第2に,ジェイルブレイク攻撃によって生じる敵の接尾辞には意味のある特徴,すなわち,異なるプロンプトに同じ接尾辞を付加することにより,特定の特徴を示す応答が生じる可能性があることを示す。
第三に、有害なコンテンツがない場合でも、良性データセットのみを用いて微調整することで、このような良性-安全-妥協機能を簡単に導入できることが示される。
このことは、トレーニングデータの良質な特徴を支配下に置くことによって引き起こされる重大なリスクを浮き彫りにし、LSMの安全性の整合性を強化するためのさらなる研究を求める。
私たちのコードとデータは \url{https://github.com/anonymous} で利用可能です。
Despite significant ongoing efforts in safety alignment, large language models (LLMs) such as GPT-4 and LLaMA 3 remain vulnerable to jailbreak attacks that can induce harmful behaviors, including those triggered by adversarial suffixes. Building on prior research, we hypothesize that these adversarial suffixes are not mere bugs but may represent features that can dominate the LLM's behavior. To evaluate this hypothesis, we conduct several experiments. First, we demonstrate that benign features can be effectively made to function as adversarial suffixes, i.e., we develop a feature extraction method to extract sample-agnostic features from benign dataset in the form of suffixes and show that these suffixes may effectively compromise safety alignment. Second, we show that adversarial suffixes generated from jailbreak attacks may contain meaningful features, i.e., appending the same suffix to different prompts results in responses exhibiting specific characteristics. Third, we show that such benign-yet-safety-compromising features can be easily introduced through fine-tuning using only benign datasets, i.e., even in the absence of harmful content. This highlights the critical risk posed by dominating benign features in the training data and calls for further research to reinforce LLM safety alignment. Our code and data is available at \url{https://github.com/anonymous}. | 翻訳日:2024-11-05 05:36:46 公開日:2024-10-05 |
# 敵のサフィックスも機能するかもしれない!
Adversarial Suffixes May Be Features Too! ( http://arxiv.org/abs/2410.00451v2 ) ライセンス: Link先を確認 | Wei Zhao, Zhe Li, Yige Li, Jun Sun, | (参考訳) GPT-4 や LLaMA 3 のような大規模言語モデル(LLM)は、安全確保の取り組みが進行中であるにもかかわらず、敵の接尾辞によって引き起こされるような有害な行動を引き起こす可能性のあるジェイルブレイク攻撃に対して脆弱なままである。
先行研究に基づいて,これらの逆行性接尾辞は単なるバグではなく,LCMの行動に支配的な特徴を表わす可能性があると仮定した。
この仮説を評価するために、我々はいくつかの実験を行った。
まず,良性特徴を逆接接尾辞として効果的に機能させること,すなわち,良性データセットからサンプル非依存の特徴を接尾辞の形で抽出する特徴抽出法を開発し,それらの接尾辞が安全アライメントを効果的に損なうことを示した。
第2に,ジェイルブレイク攻撃によって生じる敵の接尾辞には意味のある特徴,すなわち,異なるプロンプトに同じ接尾辞を付加することにより,特定の特徴を示す応答が生じる可能性があることを示す。
第三に、有害なコンテンツがない場合でも、良性データセットのみを用いて微調整することで、このような良性-安全-妥協機能を簡単に導入できることが示される。
このことは、トレーニングデータの良質な特徴を支配下に置くことによって引き起こされる重大なリスクを浮き彫りにし、LSMの安全性の整合性を強化するためのさらなる研究を求める。
コードとデータは \url{https://github.com/suffix-maybe-feature/adver-suffix-maybe-features} で利用可能です。
Despite significant ongoing efforts in safety alignment, large language models (LLMs) such as GPT-4 and LLaMA 3 remain vulnerable to jailbreak attacks that can induce harmful behaviors, including those triggered by adversarial suffixes. Building on prior research, we hypothesize that these adversarial suffixes are not mere bugs but may represent features that can dominate the LLM's behavior. To evaluate this hypothesis, we conduct several experiments. First, we demonstrate that benign features can be effectively made to function as adversarial suffixes, i.e., we develop a feature extraction method to extract sample-agnostic features from benign dataset in the form of suffixes and show that these suffixes may effectively compromise safety alignment. Second, we show that adversarial suffixes generated from jailbreak attacks may contain meaningful features, i.e., appending the same suffix to different prompts results in responses exhibiting specific characteristics. Third, we show that such benign-yet-safety-compromising features can be easily introduced through fine-tuning using only benign datasets, i.e., even in the absence of harmful content. This highlights the critical risk posed by dominating benign features in the training data and calls for further research to reinforce LLM safety alignment. Our code and data is available at \url{https://github.com/suffix-maybe-feature/adver-suffix-maybe-features}. | 翻訳日:2024-11-05 05:27:01 公開日:2024-10-05 |
# ニューロイメージングの予測モデルにおける解釈可能なサブコホート解析のためのスペクトルグラフサンプル重み付け
Spectral Graph Sample Weighting for Interpretable Sub-cohort Analysis in Predictive Models for Neuroimaging ( http://arxiv.org/abs/2410.00946v1 ) ライセンス: Link先を確認 | Magdalini Paschali, Jiang Yu Hang, Spencer Siegel, Camila Gonzalez, Kilian Pohl, Akshay Chaudhari, Qingyu Zhao, | (参考訳) 最近の医学の進歩により、脳障害はメカニズム、発達軌道、重度の複数のサブタイプから構成されることが多いことが確認されている。
このような異質性は、しばしば人口統計学的側面(例、性)や疾患関連要因(例、遺伝学)と関連付けられている。
このように、症状予測に使用される機械学習モデルの予測力は、そのような要因に基づいて、被験者によって異なる。
この不均一性をモデル化するために、各トレーニングサンプルに因子依存の重みを割り当てることができる。
そこで本研究では, 被写体重みをスペクトル集団グラフの固有基底の線形結合としてモデル化し, 被写体間の因子の類似性を捉えることを提案する。
そうすることで、学習した重量はグラフ全体でスムーズに変化し、高い予測可能性と低い予測可能性を持つサブコホートが強調される。
提案手法を2つのタスクで評価した。
まず,若年者におけるアルコール・神経発達に関する全国コンソーシアム(NCANDA)のイメージと神経心理学的指標から,飲酒の開始を予測した。
次に,アルツハイマー病神経画像イニシアチブ(ADNI)の被験者を対象に,認知症と軽度認知障害(MCI)を画像と人口統計で検出した。
既存の試料重み付け方式と比較して,試料重み付けにより解釈性が向上し,異なる特性とモデル精度の異なるサブコホートが強調される。
Recent advancements in medicine have confirmed that brain disorders often comprise multiple subtypes of mechanisms, developmental trajectories, or severity levels. Such heterogeneity is often associated with demographic aspects (e.g., sex) or disease-related contributors (e.g., genetics). Thus, the predictive power of machine learning models used for symptom prediction varies across subjects based on such factors. To model this heterogeneity, one can assign each training sample a factor-dependent weight, which modulates the subject's contribution to the overall objective loss function. To this end, we propose to model the subject weights as a linear combination of the eigenbases of a spectral population graph that captures the similarity of factors across subjects. In doing so, the learned weights smoothly vary across the graph, highlighting sub-cohorts with high and low predictability. Our proposed sample weighting scheme is evaluated on two tasks. First, we predict initiation of heavy alcohol drinking in young adulthood from imaging and neuropsychological measures from the National Consortium on Alcohol and NeuroDevelopment in Adolescence (NCANDA). Next, we detect Dementia vs. Mild Cognitive Impairment (MCI) using imaging and demographic measurements in subjects from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Compared to existing sample weighting schemes, our sample weights improve interpretability and highlight sub-cohorts with distinct characteristics and varying model accuracy. | 翻訳日:2024-11-05 00:00:02 公開日:2024-10-05 |
# ニューロイメージングの予測モデルにおける解釈可能なサブコホート解析のためのスペクトルグラフサンプル重み付け
Spectral Graph Sample Weighting for Interpretable Sub-cohort Analysis in Predictive Models for Neuroimaging ( http://arxiv.org/abs/2410.00946v2 ) ライセンス: Link先を確認 | Magdalini Paschali, Yu Hang Jiang, Spencer Siegel, Camila Gonzalez, Kilian M. Pohl, Akshay Chaudhari, Qingyu Zhao, | (参考訳) 最近の医学の進歩により、脳障害はメカニズム、発達軌道、重度の複数のサブタイプから構成されることが多いことが確認されている。
このような異質性は、しばしば人口統計学的側面(例、性)や疾患関連要因(例、遺伝学)と関連付けられている。
このように、症状予測に使用される機械学習モデルの予測力は、そのような要因に基づいて、被験者によって異なる。
この不均一性をモデル化するために、各トレーニングサンプルに因子依存の重みを割り当てることができる。
そこで本研究では, 被写体重みをスペクトル集団グラフの固有基底の線形結合としてモデル化し, 被写体間の因子の類似性を捉えることを提案する。
そうすることで、学習した重量はグラフ全体でスムーズに変化し、高い予測可能性と低い予測可能性を持つサブコホートが強調される。
提案手法を2つのタスクで評価した。
まず,若年者におけるアルコール・神経発達に関する全国コンソーシアム(NCANDA)のイメージと神経心理学的指標から,飲酒の開始を予測した。
次に,アルツハイマー病神経画像イニシアチブ(ADNI)の被験者を対象に,認知症と軽度認知障害(MCI)を画像と人口統計で検出した。
既存の試料重み付け方式と比較して,試料重み付けにより解釈性が向上し,異なる特性とモデル精度の異なるサブコホートが強調される。
Recent advancements in medicine have confirmed that brain disorders often comprise multiple subtypes of mechanisms, developmental trajectories, or severity levels. Such heterogeneity is often associated with demographic aspects (e.g., sex) or disease-related contributors (e.g., genetics). Thus, the predictive power of machine learning models used for symptom prediction varies across subjects based on such factors. To model this heterogeneity, one can assign each training sample a factor-dependent weight, which modulates the subject's contribution to the overall objective loss function. To this end, we propose to model the subject weights as a linear combination of the eigenbases of a spectral population graph that captures the similarity of factors across subjects. In doing so, the learned weights smoothly vary across the graph, highlighting sub-cohorts with high and low predictability. Our proposed sample weighting scheme is evaluated on two tasks. First, we predict initiation of heavy alcohol drinking in young adulthood from imaging and neuropsychological measures from the National Consortium on Alcohol and NeuroDevelopment in Adolescence (NCANDA). Next, we detect Dementia vs. Mild Cognitive Impairment (MCI) using imaging and demographic measurements in subjects from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Compared to existing sample weighting schemes, our sample weights improve interpretability and highlight sub-cohorts with distinct characteristics and varying model accuracy. | 翻訳日:2024-11-05 00:00:02 公開日:2024-10-05 |
# コードから正確性へ:階層的なデバッグでコード生成の最後のマイルを閉じる
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging ( http://arxiv.org/abs/2410.01215v1 ) ライセンス: Link先を確認 | Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu, | (参考訳) 大きな言語モデルはコード生成において大きな進歩を遂げていますが、生成されたコードのパスレートは微妙なエラーでボトルネックとなり、特に複雑な問題に対して、テストに人間が介入する必要がしばしばあります。
既存のLLMベースのデバッグシステムは、生成されたプログラムをモノリシックな単位として扱い、低レベルの構文エラーから高レベルのアルゴリズム欠陥まで、複数のレベルでバグに対処できなかった。
本稿では,多言語デバッガ (MGDebugger) について紹介する。
MGDebuggerは問題のあるコードをサブファンクションの階層木構造に分解する。
デバッグ中、各サブファンクションを分析し、ボトムアップ方式でバグを反復的に解決する。
それぞれのサブファンクションを効果的にテストするために,コード実行をトレースし,重要な変数状態を追跡して誤りを正確に特定するLLMシミュレーションPythonエグゼキュータを提案する。
MGDebuggerは既存のデバッグシステムより優れており、HumanEvalのシード世代よりも精度が18.9%向上し、HumanEvalFixの97.6%の修正成功率を達成した。
さらにMGDebuggerは、さまざまなカテゴリと難易度でバグを効果的に修正し、その堅牢性と有効性を示している。
While large language models have made significant strides in code generation, the pass rate of the generated code is bottlenecked on subtle errors, often requiring human intervention to pass tests, especially for complex problems. Existing LLM-based debugging systems treat generated programs as monolithic units, failing to address bugs at multiple levels of granularity, from low-level syntax errors to high-level algorithmic flaws. In this paper, we introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger by isolating, identifying, and resolving bugs at various levels of granularity. MGDebugger decomposes problematic code into a hierarchical tree structure of subfunctions, with each level representing a particular granularity of error. During debugging, it analyzes each subfunction and iteratively resolves bugs in a bottom-up manner. To effectively test each subfunction, we propose an LLM-simulated Python executor, which traces code execution and tracks important variable states to pinpoint errors accurately. Extensive experiments demonstrate that MGDebugger outperforms existing debugging systems, achieving an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6% repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes bugs across different categories and difficulty levels, demonstrating its robustness and effectiveness. | 翻訳日:2024-11-04 22:28:32 公開日:2024-10-05 |
# コードから正確性へ:階層的なデバッグでコード生成の最後のマイルを閉じる
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging ( http://arxiv.org/abs/2410.01215v2 ) ライセンス: Link先を確認 | Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu, | (参考訳) 大きな言語モデルはコード生成において大きな進歩を遂げていますが、生成されたコードのパスレートは微妙なエラーでボトルネックとなり、特に複雑な問題に対して、テストに人間が介入する必要がしばしばあります。
既存のLLMベースのデバッグシステムは、生成されたプログラムをモノリシックな単位として扱い、低レベルの構文エラーから高レベルのアルゴリズム欠陥まで、複数のレベルでバグに対処できなかった。
本稿では,多言語デバッガ (MGDebugger) について紹介する。
MGDebuggerは問題のあるコードをサブファンクションの階層木構造に分解する。
デバッグ中、各サブファンクションを分析し、ボトムアップ方式でバグを反復的に解決する。
それぞれのサブファンクションを効果的にテストするために,コード実行をトレースし,重要な変数状態を追跡して誤りを正確に特定するLLMシミュレーションPythonエグゼキュータを提案する。
MGDebuggerは既存のデバッグシステムより優れており、HumanEvalのシード世代よりも精度が18.9%向上し、HumanEvalFixの97.6%の修正成功率を達成した。
さらにMGDebuggerは、さまざまなカテゴリと難易度でバグを効果的に修正し、その堅牢性と有効性を示している。
While large language models have made significant strides in code generation, the pass rate of the generated code is bottlenecked on subtle errors, often requiring human intervention to pass tests, especially for complex problems. Existing LLM-based debugging systems treat generated programs as monolithic units, failing to address bugs at multiple levels of granularity, from low-level syntax errors to high-level algorithmic flaws. In this paper, we introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger by isolating, identifying, and resolving bugs at various levels of granularity. MGDebugger decomposes problematic code into a hierarchical tree structure of subfunctions, with each level representing a particular granularity of error. During debugging, it analyzes each subfunction and iteratively resolves bugs in a bottom-up manner. To effectively test each subfunction, we propose an LLM-simulated Python executor, which traces code execution and tracks important variable states to pinpoint errors accurately. Extensive experiments demonstrate that MGDebugger outperforms existing debugging systems, achieving an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6% repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes bugs across different categories and difficulty levels, demonstrating its robustness and effectiveness. | 翻訳日:2024-11-04 22:28:32 公開日:2024-10-05 |
# OpenMath Instruct-2: 大量のオープンソースインストラクションデータを用いた数学用AIの高速化
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data ( http://arxiv.org/abs/2410.01560v1 ) ライセンス: Link先を確認 | Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan, Igor Gitman, | (参考訳) 数学的推論は、大きな言語モデル(LLM)開発において重要な課題であり続けている。
しかし、LLMを用いた数学的推論の最先端の進歩のほとんどは、トレーニングデータへのアクセスが不足しているため、emph{closed-source} となった。
このデータアクセスの欠如により、研究者はデータの合成と利用の異なる選択の影響を理解することができなくなる。
数学推論のための高品質な微調整(SFT)データセットを作成することを目的として、最近リリースされたモデルである「texttt{Llama3.1}」を用いて、データ合成に関する慎重なアブレーション実験を行う。
私たちの実験は、こう示しています。
(a)解形式が重要で、過度に冗長な解がSFT性能に有害であることを示す。
b) 強い教師が生成したデータは、弱い学生モデルで生成されたemph{on-policy}データを上回ります。
(c) SFTは低品質なソリューションに対して堅牢であり、不正確なデータフィルタリングを可能にする。
(d)質問の多様性は、データのスケーリングゲインを達成するために不可欠である。
これらの知見に基づいて、1400万の質問解決ペア($600K)からなるOpenMathInstruct-2データセットを作成します。
OpenMath Instruct-2 による \texttt{Llama-3.1-8B-Base} の微調整は、MATH 上の \textt{Llama3.1-8B-Instruct} を 15.9\% (51.9\% $\rightarrow$ 67.8\%) で上回る。
最後に、オープンソースの取り組みを加速するために、コード、微調整されたモデル、OpenMath Instruct-2データセットを商業的に許容されるライセンスでリリースします。
Mathematical reasoning continues to be a critical challenge in large language model (LLM) development with significant interest. However, most of the cutting-edge progress in mathematical reasoning with LLMs has become \emph{closed-source} due to lack of access to training data. This lack of data access limits researchers from understanding the impact of different choices for synthesizing and utilizing the data. With the goal of creating a high-quality finetuning (SFT) dataset for math reasoning, we conduct careful ablation experiments on data synthesis using the recently released \texttt{Llama3.1} family of models. Our experiments show that: (a) solution format matters, with excessively verbose solutions proving detrimental to SFT performance, (b) data generated by a strong teacher outperforms \emph{on-policy} data generated by a weak student model, (c) SFT is robust to low-quality solutions, allowing for imprecise data filtering, and (d) question diversity is crucial for achieving data scaling gains. Based on these insights, we create the OpenMathInstruct-2 dataset, which consists of 14M question-solution pairs ($\approx$ 600K unique questions), making it nearly eight times larger than the previous largest open-source math reasoning dataset. Finetuning the \texttt{Llama-3.1-8B-Base} using OpenMathInstruct-2 outperforms \texttt{Llama3.1-8B-Instruct} on MATH by an absolute 15.9\% (51.9\% $\rightarrow$ 67.8\%). Finally, to accelerate the open-source efforts, we release the code, the finetuned models, and the OpenMathInstruct-2 dataset under a commercially permissive license. | 翻訳日:2024-11-04 17:04:38 公開日:2024-10-05 |
# OpenMath Instruct-2: 大量のオープンソースインストラクションデータを用いた数学用AIの高速化
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data ( http://arxiv.org/abs/2410.01560v2 ) ライセンス: Link先を確認 | Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan, Igor Gitman, | (参考訳) 数学的推論は、大きな言語モデル(LLM)開発において重要な課題であり続けている。
しかし、LLMを用いた数学的推論の最先端の進歩のほとんどは、トレーニングデータへのアクセスが不足しているため、emph{closed-source} となった。
このデータアクセスの欠如により、研究者はデータの合成と利用の異なる選択の影響を理解することができなくなる。
数学推論のための高品質な微調整(SFT)データセットを作成することを目的として、最近リリースされたモデルである「texttt{Llama3.1}」を用いて、データ合成に関する慎重なアブレーション実験を行う。
私たちの実験は、こう示しています。
(a)解形式が重要で、過度に冗長な解がSFT性能に有害であることを示す。
b) 強い教師が生成したデータは、弱い学生モデルで生成された等サイズのデータより優れる。
(c) SFTは低品質なソリューションに対して堅牢であり、不正確なデータフィルタリングを可能にする。
(d)質問の多様性は、データのスケーリングゲインを達成するために不可欠である。
これらの知見に基づいて、1400万の質問解決ペア($600K)からなるOpenMathInstruct-2データセットを作成します。
OpenMath Instruct-2 による \texttt{Llama-3.1-8B-Base} の微調整は、MATH 上の \textt{Llama3.1-8B-Instruct} を 15.9\% (51.9\% $\rightarrow$ 67.8\%) で上回る。
最後に、オープンソースの取り組みを加速するために、コード、微調整されたモデル、OpenMath Instruct-2データセットを商業的に許容されるライセンスでリリースします。
Mathematical reasoning continues to be a critical challenge in large language model (LLM) development with significant interest. However, most of the cutting-edge progress in mathematical reasoning with LLMs has become \emph{closed-source} due to lack of access to training data. This lack of data access limits researchers from understanding the impact of different choices for synthesizing and utilizing the data. With the goal of creating a high-quality finetuning (SFT) dataset for math reasoning, we conduct careful ablation experiments on data synthesis using the recently released \texttt{Llama3.1} family of models. Our experiments show that: (a) solution format matters, with excessively verbose solutions proving detrimental to SFT performance, (b) data generated by a strong teacher outperforms equally-sized data generated by a weak student model, (c) SFT is robust to low-quality solutions, allowing for imprecise data filtering, and (d) question diversity is crucial for achieving data scaling gains. Based on these insights, we create the OpenMathInstruct-2 dataset, which consists of 14M question-solution pairs ($\approx$ 600K unique questions), making it nearly eight times larger than the previous largest open-source math reasoning dataset. Finetuning the \texttt{Llama-3.1-8B-Base} using OpenMathInstruct-2 outperforms \texttt{Llama3.1-8B-Instruct} on MATH by an absolute 15.9\% (51.9\% $\rightarrow$ 67.8\%). Finally, to accelerate the open-source efforts, we release the code, the finetuned models, and the OpenMathInstruct-2 dataset under a commercially permissive license. | 翻訳日:2024-11-04 17:04:38 公開日:2024-10-05 |
# 画像生成のための正規化フローベースメトリクス
Normalizing Flow Based Metric for Image Generation ( http://arxiv.org/abs/2410.02004v1 ) ライセンス: Link先を確認 | Pranav Jeevan, Neeraj Nixon, Amit Sethi, | (参考訳) 本稿では,フローの正規化に基づく生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
この特性は、広く使われているFr'echet開始距離(FID)や他の最近の指標に対して、提案された指標にいくつかの利点を与える。
第一に、提案されたメトリクスは、FIDに必要な数万のイメージと対照的に、(平均的に収束する)数百のイメージしか必要としない。
これにより、トレーニングループ内のバリデーションバッチなど、生成したイメージの小さなセットでさえ、確実な評価が可能になる。
第二に、提案したメトリックを計算するために使用されるネットワークは、FIDを計算するために使用されるInception-V3と比較して、桁違いに少ないパラメータを持つため、計算効率が向上する。
新しい領域(例えば、X線画像)で生成された画像の現実性を評価するためには、これらのネットワークを実画像上で再トレーニングして、個々の分布をモデル化することが理想である。
したがって、私たちの小さなネットワークは、新しいドメインに対してさらに有利になるでしょう。
大規模な実験により,提案手法は様々な種類の画像劣化の程度と所望のモノトニックな関係を持つことが示された。
We propose two new evaluation metrics to assess realness of generated images based on normalizing flows: a simpler and efficient flow-based likelihood distance (FLD) and a more exact dual-flow based likelihood distance (D-FLD). Because normalizing flows can be used to compute the exact likelihood, the proposed metrics assess how closely generated images align with the distribution of real images from a given domain. This property gives the proposed metrics a few advantages over the widely used Fr\'echet inception distance (FID) and other recent metrics. Firstly, the proposed metrics need only a few hundred images to stabilize (converge in mean), as opposed to tens of thousands needed for FID, and at least a few thousand for the other metrics. This allows confident evaluation of even small sets of generated images, such as validation batches inside training loops. Secondly, the network used to compute the proposed metric has over an order of magnitude fewer parameters compared to Inception-V3 used to compute FID, making it computationally more efficient. For assessing the realness of generated images in new domains (e.g., x-ray images), ideally these networks should be retrained on real images to model their distinct distributions. Thus, our smaller network will be even more advantageous for new domains. Extensive experiments show that the proposed metrics have the desired monotonic relationships with the extent of image degradation of various kinds. | 翻訳日:2024-11-04 09:34:57 公開日:2024-10-05 |
# 画像生成のためのフローベース計量の正規化
Normalizing Flow-Based Metric for Image Generation ( http://arxiv.org/abs/2410.02004v2 ) ライセンス: Link先を確認 | Pranav Jeevan, Neeraj Nixon, Amit Sethi, | (参考訳) 本稿では,フローの正規化に基づく生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
この特性は、広く使われているFr'echet開始距離(FID)や他の最近の指標に対して、提案された指標にいくつかの利点を与える。
第一に、提案されたメトリクスは、FIDに必要な数万のイメージと対照的に、(平均的に収束する)数百のイメージしか必要としない。
これにより、トレーニングループ内のバリデーションバッチなど、生成したイメージの小さなセットでさえ、確実な評価が可能になる。
第二に、提案したメトリックを計算するために使用されるネットワークは、FIDを計算するために使用されるInception-V3と比較して、桁違いに少ないパラメータを持つため、計算効率が向上する。
新しい領域(例えば、X線画像)で生成された画像の現実性を評価するためには、これらのネットワークを実画像上で再トレーニングして、個々の分布をモデル化することが理想である。
したがって、私たちの小さなネットワークは、新しいドメインに対してさらに有利になるでしょう。
大規模な実験により,提案手法は様々な種類の画像劣化の程度と所望のモノトニックな関係を持つことが示された。
We propose two new evaluation metrics to assess realness of generated images based on normalizing flows: a simpler and efficient flow-based likelihood distance (FLD) and a more exact dual-flow based likelihood distance (D-FLD). Because normalizing flows can be used to compute the exact likelihood, the proposed metrics assess how closely generated images align with the distribution of real images from a given domain. This property gives the proposed metrics a few advantages over the widely used Fr\'echet inception distance (FID) and other recent metrics. Firstly, the proposed metrics need only a few hundred images to stabilize (converge in mean), as opposed to tens of thousands needed for FID, and at least a few thousand for the other metrics. This allows confident evaluation of even small sets of generated images, such as validation batches inside training loops. Secondly, the network used to compute the proposed metric has over an order of magnitude fewer parameters compared to Inception-V3 used to compute FID, making it computationally more efficient. For assessing the realness of generated images in new domains (e.g., x-ray images), ideally these networks should be retrained on real images to model their distinct distributions. Thus, our smaller network will be even more advantageous for new domains. Extensive experiments show that the proposed metrics have the desired monotonic relationships with the extent of image degradation of various kinds. | 翻訳日:2024-11-04 09:34:57 公開日:2024-10-05 |
# 階層型推論のための非線形変圧器の訓練:理論的一般化解析
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis ( http://arxiv.org/abs/2410.02167v1 ) ライセンス: Link先を確認 | Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, | (参考訳) CoT(Chain-of-Thought)は、複数の中間ステップを持つ複数の例を用いてクエリを増強することにより、大規模言語モデルの推論能力を高める効率的なプロンプト手法である。
実証的な成功にもかかわらず、CoT能力を達成するためのトランスフォーマーの訓練方法に関する理論的理解はいまだに研究されていない。
これは主に非凸最適化を非線形アテンションモデルで解析する技術的な問題に起因する。
我々の知る限り、本研究は、入力が新しいタスクの例によって拡張されたときに、結果として得られるモデルが見えないタスクを推測できるように、非線型注意のトレーニングトランスフォーマーに関する最初の理論的研究を提供する。
まず、必要なトレーニングサンプルとイテレーションを定量化し、TransformerモデルをCoT能力に向けてトレーニングします。
次に、分布シフトテストデータを用いた未確認タスクにおけるCoT一般化の成功を証明した。
さらに,提案した推論例にノイズがあり,必ずしも正確ではない場合でも,CoTによる正確な推論出力の条件を理論的に特徴づける。
対照的に、中間ステップなしで一段階のCoTと見なすことができるインコンテキスト学習(ICL)は、CoTが正しい出力を提供することができない。
これらの理論的な発見は実験によって正当化される。
Chain-of-Thought (CoT) is an efficient prompting method that enables the reasoning ability of large language models by augmenting the query using multiple examples with multiple intermediate steps. Despite the empirical success, the theoretical understanding of how to train a Transformer to achieve the CoT ability remains less explored. This is primarily due to the technical challenges involved in analyzing the nonconvex optimization on nonlinear attention models. To the best of our knowledge, this work provides the first theoretical study of training Transformers with nonlinear attention to obtain the CoT generalization capability so that the resulting model can inference on unseen tasks when the input is augmented by examples of the new task. We first quantify the required training samples and iterations to train a Transformer model towards CoT ability. We then prove the success of its CoT generalization on unseen tasks with distribution-shifted testing data. Moreover, we theoretically characterize the conditions for an accurate reasoning output by CoT even when the provided reasoning examples contain noises and are not always accurate. In contrast, in-context learning (ICL), which can be viewed as one-step CoT without intermediate steps, may fail to provide an accurate output when CoT does. These theoretical findings are justified through experiments. | 翻訳日:2024-11-04 08:15:54 公開日:2024-10-05 |
# 階層型推論のための非線形変圧器の訓練:理論的一般化解析
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis ( http://arxiv.org/abs/2410.02167v2 ) ライセンス: Link先を確認 | Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, | (参考訳) CoT(Chain-of-Thought)は、複数の中間ステップを持つ複数の例を用いてクエリを増強することにより、大規模言語モデルの推論能力を高める効率的なプロンプト手法である。
実証的な成功にもかかわらず、CoT能力を達成するためのトランスフォーマーの訓練方法に関する理論的理解はいまだに研究されていない。
これは主に非凸最適化を非線形アテンションモデルで解析する技術的な問題に起因する。
我々の知る限り、本研究は、入力が新しいタスクの例によって拡張されたときに、結果として得られるモデルが見えないタスクを推測できるように、非線型注意のトレーニングトランスフォーマーに関する最初の理論的研究を提供する。
まず、必要なトレーニングサンプルとイテレーションを定量化し、TransformerモデルをCoT能力に向けてトレーニングします。
次に、分布シフトテストデータを用いた未確認タスクにおけるCoT一般化の成功を証明した。
さらに,提案した推論例にノイズがあり,必ずしも正確ではない場合でも,CoTによる正確な推論出力の条件を理論的に特徴づける。
対照的に、中間ステップなしで一段階のCoTと見なすことができるインコンテキスト学習(ICL)は、CoTが正しい出力を提供することができない。
これらの理論的な発見は実験によって正当化される。
Chain-of-Thought (CoT) is an efficient prompting method that enables the reasoning ability of large language models by augmenting the query using multiple examples with multiple intermediate steps. Despite the empirical success, the theoretical understanding of how to train a Transformer to achieve the CoT ability remains less explored. This is primarily due to the technical challenges involved in analyzing the nonconvex optimization on nonlinear attention models. To the best of our knowledge, this work provides the first theoretical study of training Transformers with nonlinear attention to obtain the CoT generalization capability so that the resulting model can inference on unseen tasks when the input is augmented by examples of the new task. We first quantify the required training samples and iterations to train a Transformer model towards CoT ability. We then prove the success of its CoT generalization on unseen tasks with distribution-shifted testing data. Moreover, we theoretically characterize the conditions for an accurate reasoning output by CoT even when the provided reasoning examples contain noises and are not always accurate. In contrast, in-context learning (ICL), which can be viewed as one-step CoT without intermediate steps, may fail to provide an accurate output when CoT does. These theoretical findings are justified through experiments. | 翻訳日:2024-11-04 08:15:54 公開日:2024-10-05 |
# 大規模言語モデルにおける論理的一貫性の測定・評価・改善
Measuring, Evaluating and Improving Logical Consistency in Large Language Models ( http://arxiv.org/abs/2410.02205v1 ) ライセンス: Link先を確認 | Yinhong Liu, Zhijiang Guo, Tianya Liang, Ehsan Shareghi, Ivan Vulić, Nigel Collier, | (参考訳) 大規模言語モデル(LLM)の最近の研究は、LLMと人間の嗜好の整合性に関する有望な進歩を示している。
LLMを利用した意思決定システムは予測可能で信頼性があり信頼性が高いと期待されており、これはパラドックスや矛盾から解放され、信頼性と妥当性を損なう可能性があることを意味している。
しかし、LCMは決定や判断を行う際にも、一貫性がなく偏見のある振る舞いを示す。
本研究では,より信頼性が高く信頼性の高いシステムのための前提条件として,LLMの論理的整合性の研究に焦点をあてる。
論理的一貫性は、決定が安定的で一貫性のある問題理解に基づいていることを保証し、不規則な出力や矛盾するアウトプットのリスクを低減する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
さらに,LLMの論理的整合性を向上し,人間の嗜好に合わせたアライメントを犠牲にすることなく,データ改質・拡張技術を導入する。
ランクアグリゲーション手法を用いて、部分的にまたは完全に順序付けられた選好ランクを推定することにより、ノイズとスパースペアワイズアノテーションを増大させる。
最後に,LLM が論理演算子として機能する LLM ベースの論理依存アルゴリズムの性能に論理一貫性が影響を及ぼすことを示す。
Recent research in Large Language Models (LLMs) has shown promising progress related to LLM alignment with human preferences. LLM-empowered decision-making systems are expected to be predictable, reliable and trustworthy, which implies being free from paradoxes or contradictions that could undermine their credibility and validity. However, LLMs still exhibit inconsistent and biased behaviour when making decisions or judgements. In this work, we focus on studying logical consistency of LLMs as a prerequisite for more reliable and trustworthy systems. Logical consistency ensures that decisions are based on a stable and coherent understanding of the problem, reducing the risk of erratic or contradictory outputs. We first propose a universal framework to quantify the logical consistency via three fundamental proxies: transitivity, commutativity and negation invariance. We then evaluate logical consistency, using the defined measures, of a wide range of LLMs, demonstrating that it can serve as a strong proxy for overall robustness. Additionally, we introduce a data refinement and augmentation technique that enhances the logical consistency of LLMs without sacrificing alignment to human preferences. It augments noisy and sparse pairwise-comparison annotations by estimating a partially or totally ordered preference rankings using rank aggregation methods. Finally, we show that logical consistency impacts the performance of LLM-based logic-dependent algorithms, where LLMs serve as logical operators. | 翻訳日:2024-11-04 08:06:03 公開日:2024-10-05 |
# 論理との整合性:大規模言語モデルにおける論理的一貫性の測定、評価、改善
Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models ( http://arxiv.org/abs/2410.02205v2 ) ライセンス: Link先を確認 | Yinhong Liu, Zhijiang Guo, Tianya Liang, Ehsan Shareghi, Ivan Vulić, Nigel Collier, | (参考訳) 大規模言語モデル(LLM)の最近の研究は、LLMと人間の嗜好の整合性に関する有望な進歩を示している。
LLMを利用した意思決定システムは予測可能で信頼性があり信頼性が高いと期待されており、これはパラドックスや矛盾から解放され、信頼性と妥当性を損なう可能性があることを意味している。
しかし、LCMは決定や判断を行う際にも、一貫性がなく偏見のある振る舞いを示す。
本研究では,より信頼性が高く信頼性の高いシステムのための前提条件として,LLMの論理的整合性の研究に焦点をあてる。
論理的一貫性は、決定が安定的で一貫性のある問題理解に基づいていることを保証し、不規則な出力や矛盾するアウトプットのリスクを低減する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
さらに,LLMの論理的整合性を向上し,人間の嗜好に合わせたアライメントを犠牲にすることなく,データ改質・拡張技術を導入する。
ランクアグリゲーション手法を用いて、部分的にまたは完全に順序付けられた選好ランクを推定することにより、ノイズとスパースペアワイズアノテーションを増大させる。
最後に,LLM が論理演算子として機能する LLM ベースの論理依存アルゴリズムの性能に論理一貫性が影響を及ぼすことを示す。
Recent research in Large Language Models (LLMs) has shown promising progress related to LLM alignment with human preferences. LLM-empowered decision-making systems are expected to be predictable, reliable and trustworthy, which implies being free from paradoxes or contradictions that could undermine their credibility and validity. However, LLMs still exhibit inconsistent and biased behaviour when making decisions or judgements. In this work, we focus on studying logical consistency of LLMs as a prerequisite for more reliable and trustworthy systems. Logical consistency ensures that decisions are based on a stable and coherent understanding of the problem, reducing the risk of erratic or contradictory outputs. We first propose a universal framework to quantify the logical consistency via three fundamental proxies: transitivity, commutativity and negation invariance. We then evaluate logical consistency, using the defined measures, of a wide range of LLMs, demonstrating that it can serve as a strong proxy for overall robustness. Additionally, we introduce a data refinement and augmentation technique that enhances the logical consistency of LLMs without sacrificing alignment to human preferences. It augments noisy and sparse pairwise-comparison annotations by estimating a partially or totally ordered preference rankings using rank aggregation methods. Finally, we show that logical consistency impacts the performance of LLM-based logic-dependent algorithms, where LLMs serve as logical operators. | 翻訳日:2024-11-04 08:06:03 公開日:2024-10-05 |
# 効率的な学習のための構造エントロピーに基づくサンプル選択
Structural-Entropy-Based Sample Selection for Efficient and Effective Learning ( http://arxiv.org/abs/2410.02268v1 ) ライセンス: Link先を確認 | Tianchi Xie, Jiangning Zhu, Guozu Ma, Minzhi Lin, Wei Chen, Weikai Yang, Shixia Liu, | (参考訳) サンプル選択は、情報的および代表的サンプルを提供することで、機械学習モデルの効率性と有効性を向上させる。
通常、サンプルはサンプルグラフとしてモデル化され、ノードはサンプルであり、エッジはその類似性を表す。
既存の手法の多くは、サンプルの訓練困難などのローカル情報に基づいており、それによって接続パターンなどのグローバル情報を見渡すことができる。
この監視は、選択されたサンプルがグラフの構造的特性を適切に表現することを保証するために、大域的な情報が不可欠であるため、最適以下の選択をもたらす可能性がある。
この問題に対処するために、構造エントロピーを用いてグローバル情報を定量化し、Shapley値を用いてグラフ全体から個々のノードに無害に分解する。
この分解に基づいて、情報的および代表的サンプルを選択するためにグローバル情報とローカル情報を統合する方法である$\textbf{S}$tructural-$\textbf{E}$ntropy-based sample $\textbf{S}$election ($\textbf{SES}$
SESは、その類似性に基づいて、サンプル間で$k$NNグラフを構築することから始まる。
次に、構造的エントロピー(グローバル計量)と訓練困難(ローカル計量)を組み合わせることで、サンプルの重要度を測定する。
最後に、SESは重要バイアスのブルーノイズサンプリングを適用し、多様なサンプルと代表的なサンプルのセットを選択する。
教師付き学習,アクティブ学習,継続学習という3つの学習シナリオに関する総合的な実験により,本手法の有効性が明らかに示された。
Sample selection improves the efficiency and effectiveness of machine learning models by providing informative and representative samples. Typically, samples can be modeled as a sample graph, where nodes are samples and edges represent their similarities. Most existing methods are based on local information, such as the training difficulty of samples, thereby overlooking global information, such as connectivity patterns. This oversight can result in suboptimal selection because global information is crucial for ensuring that the selected samples well represent the structural properties of the graph. To address this issue, we employ structural entropy to quantify global information and losslessly decompose it from the whole graph to individual nodes using the Shapley value. Based on the decomposition, we present $\textbf{S}$tructural-$\textbf{E}$ntropy-based sample $\textbf{S}$election ($\textbf{SES}$), a method that integrates both global and local information to select informative and representative samples. SES begins by constructing a $k$NN-graph among samples based on their similarities. It then measures sample importance by combining structural entropy (global metric) with training difficulty (local metric). Finally, SES applies importance-biased blue noise sampling to select a set of diverse and representative samples. Comprehensive experiments on three learning scenarios -- supervised learning, active learning, and continual learning -- clearly demonstrate the effectiveness of our method. | 翻訳日:2024-11-04 07:36:05 公開日:2024-10-05 |
# 効率的な学習のための構造エントロピーに基づくサンプル選択
Structural-Entropy-Based Sample Selection for Efficient and Effective Learning ( http://arxiv.org/abs/2410.02268v2 ) ライセンス: Link先を確認 | Tianchi Xie, Jiangning Zhu, Guozu Ma, Minzhi Lin, Wei Chen, Weikai Yang, Shixia Liu, | (参考訳) サンプル選択は、情報的および代表的サンプルを提供することで、機械学習モデルの効率性と有効性を向上させる。
通常、サンプルはサンプルグラフとしてモデル化され、ノードはサンプルであり、エッジはその類似性を表す。
既存の手法の多くは、サンプルの訓練困難などのローカル情報に基づいており、それによって接続パターンなどのグローバル情報を見渡すことができる。
この監視は、選択されたサンプルがグラフの構造的特性を適切に表現することを保証するために、大域的な情報が不可欠であるため、最適以下の選択をもたらす可能性がある。
この問題に対処するために、構造エントロピーを用いてグローバル情報を定量化し、Shapley値を用いてグラフ全体から個々のノードに無害に分解する。
この分解に基づいて、情報的および代表的サンプルを選択するためにグローバル情報とローカル情報を統合する方法である$\textbf{S}$tructural-$\textbf{E}$ntropy-based sample $\textbf{S}$election ($\textbf{SES}$
SESは、その類似性に基づいて、サンプル間で$k$NNグラフを構築することから始まる。
次に、構造的エントロピー(グローバル計量)と訓練困難(ローカル計量)を組み合わせることで、サンプルの重要度を測定する。
最後に、SESは重要バイアスのブルーノイズサンプリングを適用し、多様なサンプルと代表的なサンプルのセットを選択する。
教師付き学習,アクティブ学習,継続学習という3つの学習シナリオに関する総合的な実験により,本手法の有効性が明らかに示された。
Sample selection improves the efficiency and effectiveness of machine learning models by providing informative and representative samples. Typically, samples can be modeled as a sample graph, where nodes are samples and edges represent their similarities. Most existing methods are based on local information, such as the training difficulty of samples, thereby overlooking global information, such as connectivity patterns. This oversight can result in suboptimal selection because global information is crucial for ensuring that the selected samples well represent the structural properties of the graph. To address this issue, we employ structural entropy to quantify global information and losslessly decompose it from the whole graph to individual nodes using the Shapley value. Based on the decomposition, we present $\textbf{S}$tructural-$\textbf{E}$ntropy-based sample $\textbf{S}$election ($\textbf{SES}$), a method that integrates both global and local information to select informative and representative samples. SES begins by constructing a $k$NN-graph among samples based on their similarities. It then measures sample importance by combining structural entropy (global metric) with training difficulty (local metric). Finally, SES applies importance-biased blue noise sampling to select a set of diverse and representative samples. Comprehensive experiments on three learning scenarios -- supervised learning, active learning, and continual learning -- clearly demonstrate the effectiveness of our method. | 翻訳日:2024-11-04 07:36:05 公開日:2024-10-05 |
# メタモデル:解釈された埋め込みと自然言語によるLCM動作のデコードアーキテクチャ
Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language ( http://arxiv.org/abs/2410.02472v1 ) ライセンス: Link先を確認 | Anthony Costarelli, Mat Allen, Severin Field, Joshua Clymer, | (参考訳) 大規模言語モデル(LLMs)が私たちの日常生活にますます統合されるにつれて、偽りの行動による潜在的な害は、彼らの意思決定を忠実に解釈する必要性を損なう。
従来の探索手法はいくつかの効果を示してきたが、より包括的な説明が必要でありながら、狭い範囲のタスクに最適である。
そこで本稿では,メタモデルアーキテクチャについて,入力モデルからのアクティベーションを取り入れた"メタモデル"を用いて検討し,入力モデルの振る舞いに関する自然言語問題に答える。
選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
以上の結果から,メタモデルがアウト・オブ・ディストリビューション・タスクによく当てはまり,今後の研究の機会へ向けられていることが示唆された。
As Large Language Models (LLMs) become increasingly integrated into our daily lives, the potential harms from deceptive behavior underlie the need for faithfully interpreting their decision-making. While traditional probing methods have shown some effectiveness, they remain best for narrowly scoped tasks while more comprehensive explanations are still necessary. To this end, we investigate meta-models-an architecture using a "meta-model" that takes activations from an "input-model" and answers natural language questions about the input-model's behaviors. We evaluate the meta-model's ability to generalize by training them on selected task types and assessing their out-of-distribution performance in deceptive scenarios. Our findings show that meta-models generalize well to out-of-distribution tasks and point towards opportunities for future research in this area. | 翻訳日:2024-11-04 03:01:18 公開日:2024-10-05 |
# メタモデル:解釈された埋め込みと自然言語によるLCM動作のデコードアーキテクチャ
Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language ( http://arxiv.org/abs/2410.02472v2 ) ライセンス: Link先を確認 | Anthony Costarelli, Mat Allen, Severin Field, | (参考訳) 大規模言語モデル(LLMs)が私たちの日常生活にますます統合されるにつれて、偽りの行動による潜在的な害は、彼らの意思決定を忠実に解釈する必要性を損なう。
従来の探索手法はいくつかの効果を示してきたが、より包括的な説明が必要でありながら、狭い範囲のタスクに最適である。
そこで本稿では,メタモデルアーキテクチャについて,入力モデルからのアクティベーションを取り入れた"メタモデル"を用いて検討し,入力モデルの振る舞いに関する自然言語問題に答える。
選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
以上の結果から,メタモデルがアウト・オブ・ディストリビューション・タスクによく当てはまり,今後の研究の機会へ向けられていることが示唆された。
As Large Language Models (LLMs) become increasingly integrated into our daily lives, the potential harms from deceptive behavior underlie the need for faithfully interpreting their decision-making. While traditional probing methods have shown some effectiveness, they remain best for narrowly scoped tasks while more comprehensive explanations are still necessary. To this end, we investigate meta-models-an architecture using a "meta-model" that takes activations from an "input-model" and answers natural language questions about the input-model's behaviors. We evaluate the meta-model's ability to generalize by training them on selected task types and assessing their out-of-distribution performance in deceptive scenarios. Our findings show that meta-models generalize well to out-of-distribution tasks and point towards opportunities for future research in this area. | 翻訳日:2024-11-04 03:01:18 公開日:2024-10-05 |
# 点雲に対する曲率多様性駆動変形と領域アライメント
Curvature Diversity-Driven Deformation and Domain Alignment for Point Cloud ( http://arxiv.org/abs/2410.02720v1 ) ライセンス: Link先を確認 | Mengxi Wu, Hao Huang, Yi Fang, Mohammad Rostami, | (参考訳) Unsupervised Domain Adaptation (UDA)は、ポイントクラウドデータ上でディープネットワークをトレーニングする際に、広範な手動データアノテーションの必要性を減らすために重要である。
UDAの重要な課題は、ドメインギャップを効果的に埋めることである。
この課題に対処するために、我々は \textbf{C}urvature \textbf{D}iversity-Driven \textbf{N}uclear-Norm Wasserstein \textbf{D}omain Alignment (CDND)を提案する。
提案手法ではまず,与えられたポイントクラウドのセマンティックリッチな領域から有意な特徴を抽出することで,ソースドメインとターゲットドメインのギャップを効果的に軽減する。
次に,Nuclear-norm \textbf{W}asserstein \textbf{D}iscrepancy (D-NWD)}を提案する。
さらに、分布アライメントにおけるD-NWDの有効性の理論的正当化に寄与し、それが \textbf{any} 変形に適用できるだけの \textit{generic} であることを示す。
提案手法を検証するために,2つのパブリックドメイン適応データセットを用いて,ポイントクラウド分類とセグメンテーションタスクについて広範な実験を行った。
実証実験の結果,本研究のCDNDは既存手法よりも顕著な差で最先端の性能を実現していることがわかった。
Unsupervised Domain Adaptation (UDA) is crucial for reducing the need for extensive manual data annotation when training deep networks on point cloud data. A significant challenge of UDA lies in effectively bridging the domain gap. To tackle this challenge, we propose \textbf{C}urvature \textbf{D}iversity-Driven \textbf{N}uclear-Norm Wasserstein \textbf{D}omain Alignment (CDND). Our approach first introduces a \textit{\textbf{Curv}ature Diversity-driven Deformation \textbf{Rec}onstruction (CurvRec)} task, which effectively mitigates the gap between the source and target domains by enabling the model to extract salient features from semantically rich regions of a given point cloud. We then propose \textit{\textbf{D}eformation-based \textbf{N}uclear-norm \textbf{W}asserstein \textbf{D}iscrepancy (D-NWD)}, which applies the Nuclear-norm Wasserstein Discrepancy to both \textit{deformed and original} data samples to align the source and target domains. Furthermore, we contribute a theoretical justification for the effectiveness of D-NWD in distribution alignment and demonstrate that it is \textit{generic} enough to be applied to \textbf{any} deformations. To validate our method, we conduct extensive experiments on two public domain adaptation datasets for point cloud classification and segmentation tasks. Empirical experiment results show that our CDND achieves state-of-the-art performance by a noticeable margin over existing approaches. | 翻訳日:2024-11-04 01:13:18 公開日:2024-10-05 |
# 点雲に対する曲率多様性駆動変形と領域アライメント
Curvature Diversity-Driven Deformation and Domain Alignment for Point Cloud ( http://arxiv.org/abs/2410.02720v2 ) ライセンス: Link先を確認 | Mengxi Wu, Hao Huang, Yi Fang, Mohammad Rostami, | (参考訳) Unsupervised Domain Adaptation (UDA)は、ポイントクラウドデータ上でディープネットワークをトレーニングする際に、広範な手動データアノテーションの必要性を減らすために重要である。
UDAの重要な課題は、ドメインギャップを効果的に埋めることである。
この課題に対処するために、我々は \textbf{C}urvature \textbf{D}iversity-Driven \textbf{N}uclear-Norm Wasserstein \textbf{D}omain Alignment (CDND)を提案する。
提案手法ではまず,与えられたポイントクラウドのセマンティックリッチな領域から有意な特徴を抽出することで,ソースドメインとターゲットドメインのギャップを効果的に軽減する。
次に,Nuclear-norm \textbf{W}asserstein \textbf{D}iscrepancy (D-NWD)}を提案する。
さらに、分布アライメントにおけるD-NWDの有効性の理論的正当化に寄与し、それが \textbf{any} 変形に適用できるだけの \textit{generic} であることを示す。
提案手法を検証するために,2つのパブリックドメイン適応データセットを用いて,ポイントクラウド分類とセグメンテーションタスクについて広範な実験を行った。
実証実験の結果,本研究のCDNDは既存手法よりも顕著な差で最先端の性能を実現していることがわかった。
Unsupervised Domain Adaptation (UDA) is crucial for reducing the need for extensive manual data annotation when training deep networks on point cloud data. A significant challenge of UDA lies in effectively bridging the domain gap. To tackle this challenge, we propose \textbf{C}urvature \textbf{D}iversity-Driven \textbf{N}uclear-Norm Wasserstein \textbf{D}omain Alignment (CDND). Our approach first introduces a \textit{\textbf{Curv}ature Diversity-driven Deformation \textbf{Rec}onstruction (CurvRec)} task, which effectively mitigates the gap between the source and target domains by enabling the model to extract salient features from semantically rich regions of a given point cloud. We then propose \textit{\textbf{D}eformation-based \textbf{N}uclear-norm \textbf{W}asserstein \textbf{D}iscrepancy (D-NWD)}, which applies the Nuclear-norm Wasserstein Discrepancy to both \textit{deformed and original} data samples to align the source and target domains. Furthermore, we contribute a theoretical justification for the effectiveness of D-NWD in distribution alignment and demonstrate that it is \textit{generic} enough to be applied to \textbf{any} deformations. To validate our method, we conduct extensive experiments on two public domain adaptation datasets for point cloud classification and segmentation tasks. Empirical experiment results show that our CDND achieves state-of-the-art performance by a noticeable margin over existing approaches. | 翻訳日:2024-11-04 01:13:18 公開日:2024-10-05 |
# 部分ホールリレーショナルカモフラージュ物体検出に向けたマンバカプセルルーティング
Mamba Capsule Routing Towards Part-Whole Relational Camouflaged Object Detection ( http://arxiv.org/abs/2410.03987v1 ) ライセンス: Link先を確認 | Dingwen Zhang, Liangbo Cheng, Yi Liu, Xinggang Wang, Junwei Han, | (参考訳) Capsule Networks (CapsNets) によって与えられる部分完全リレーショナル特性は、セグメンテーションの整合性のため、擬似オブジェクト検出に成功している。
しかし、重い計算と大きなパラメータを持つ以前の期待最大化(EM)カプセルルーティングアルゴリズムは、この傾向を妨げている。
主な属性は、ピクセルレベルのカプセルルーティングにある。
また,本論文では,タイプレベルでの新しいマンバカプセルルーティングを提案する。
具体的には,まず,マンバの暗黙の潜伏状態をカプセルベクターとして抽出する。
これらのタイプのマンバカプセルはEMルーティングアルゴリズムに供給され、高層マンバカプセルを得る。
さらに, 隣接層型マンバカプセルから相関関係を導出して, 低層型カプセルを用いて, さらなるキャモフラージュ予測のために, 画素レベルのカプセルの特徴を回収する。
広く使われている3つのCODベンチマークデータセットに対する大規模な実験により、我々の手法は最先端の手法よりも大幅に優れていることが示された。
コードはhttps://github.com/Liangbo-Cheng/mamba\_capsuleで公開されている。
The part-whole relational property endowed by Capsule Networks (CapsNets) has been known successful for camouflaged object detection due to its segmentation integrity. However, the previous Expectation Maximization (EM) capsule routing algorithm with heavy computation and large parameters obstructs this trend. The primary attribution behind lies in the pixel-level capsule routing. Alternatively, in this paper, we propose a novel mamba capsule routing at the type level. Specifically, we first extract the implicit latent state in mamba as capsule vectors, which abstract type-level capsules from pixel-level versions. These type-level mamba capsules are fed into the EM routing algorithm to get the high-layer mamba capsules, which greatly reduce the computation and parameters caused by the pixel-level capsule routing for part-whole relationships exploration. On top of that, to retrieve the pixel-level capsule features for further camouflaged prediction, we achieve this on the basis of the low-layer pixel-level capsules with the guidance of the correlations from adjacent-layer type-level mamba capsules. Extensive experiments on three widely used COD benchmark datasets demonstrate that our method significantly outperforms state-of-the-arts. Code has been available on https://github.com/Liangbo-Cheng/mamba\_capsule. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 一変量回帰における浅層ニューラルネットワークの鏡像の入射バイアス
Implicit Bias of Mirror Descent for Shallow Neural Networks in Univariate Regression ( http://arxiv.org/abs/2410.03988v1 ) ライセンス: Link先を確認 | Shuang Liang, Guido Montúfar, | (参考訳) 広帯域・浅帯域ニューラルネットワークを用いた一変量最小二乗誤差回帰におけるミラーフローの暗黙バイアスについて検討した。
広い範囲の潜在的な関数に対して、ミラーフローは遅延トレーニングを示し、ネットワーク幅が無限大になる傾向にある場合、通常の勾配流と同じ暗黙バイアスを有することを示す。
ReLUネットワークの場合、関数空間の変動問題によってこのバイアスを特徴づける。
本分析では, 通常の勾配流を特別な場合として, トレーニングデータの難易度調整や, スキップ接続を伴うネットワークの制限を解除する。
さらに、スケールしたポテンシャルを導入し、ミラーフローがまだ遅延トレーニングを行っているが、カーネルシステムにはないことを示す。
絶対値アクティベーションを持つネットワークの場合、スケールされたポテンシャルを持つミラーフローは、RKHSノルムによって捕捉できない豊富なバイアスのクラスを誘導することを示す。
パラメータの初期化は、学習した関数の曲率が入力空間の異なる場所でどれだけ強くペナル化されるかを決定するが、スケールされたポテンシャルは曲率の異なる大きさがペナル化されるかを決定する。
We examine the implicit bias of mirror flow in univariate least squares error regression with wide and shallow neural networks. For a broad class of potential functions, we show that mirror flow exhibits lazy training and has the same implicit bias as ordinary gradient flow when the network width tends to infinity. For ReLU networks, we characterize this bias through a variational problem in function space. Our analysis includes prior results for ordinary gradient flow as a special case and lifts limitations which required either an intractable adjustment of the training data or networks with skip connections. We further introduce scaled potentials and show that for these, mirror flow still exhibits lazy training but is not in the kernel regime. For networks with absolute value activations, we show that mirror flow with scaled potentials induces a rich class of biases, which generally cannot be captured by an RKHS norm. A takeaway is that whereas the parameter initialization determines how strongly the curvature of the learned function is penalized at different locations of the input space, the scaled potential determines how the different magnitudes of the curvature are penalized. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# スクラッチからの対称性: 教師付き学習課題としての群等価性
Symmetry From Scratch: Group Equivariance as a Supervised Learning Task ( http://arxiv.org/abs/2410.03989v1 ) ライセンス: Link先を確認 | Haozhe Huang, Leo Kaixuan Cheng, Kaiwen Chen, Alán Aspuru-Guzik, | (参考訳) 対称性を持つ機械学習データセットでは、対称性の破れとの後方互換性のパラダイムは、同変のアーキテクチャ制約を緩和し、関心の対称性を区別するためのエンジニアリングの余分な重みを緩和することであった。
しかし、モデルが特定の同変基底関数の集合の特定の対称性/対称性に向けられているため、このプロセスはますますオーバーエンジニアリングされる。
本研究では,機械学習モデルにおける同値化を誘導する手法である対称性閉包を導入する。
一般的な機械学習アーキテクチャ(MLP)は、群同変アーキテクチャから教師付き学習タスクとして直接対称性を学習し、下流タスクの学習対称性を維持・破壊できることを示す。
この単純な定式化により、グループ非依存アーキテクチャを持つ機械学習モデルにより、グループ同変アーキテクチャの帰納バイアスを捉えることができる。
In machine learning datasets with symmetries, the paradigm for backward compatibility with symmetry-breaking has been to relax equivariant architectural constraints, engineering extra weights to differentiate symmetries of interest. However, this process becomes increasingly over-engineered as models are geared towards specific symmetries/asymmetries hardwired of a particular set of equivariant basis functions. In this work, we introduce symmetry-cloning, a method for inducing equivariance in machine learning models. We show that general machine learning architectures (i.e., MLPs) can learn symmetries directly as a supervised learning task from group equivariant architectures and retain/break the learned symmetry for downstream tasks. This simple formulation enables machine learning models with group-agnostic architectures to capture the inductive bias of group-equivariant architectures. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# UDE-III:制約付き最適化問題に対する統合微分進化アルゴリズム
UDE-III: An Enhanced Unified Differential Evolution Algorithm for Constrained Optimization Problems ( http://arxiv.org/abs/2410.03992v1 ) ライセンス: Link先を確認 | Anupam Trivedi, Dikshit Chauhan, | (参考訳) 本稿では、実パラメータ制約付き最適化問題(COP)に対して、UDE-IIIと呼ばれる拡張された統合微分進化アルゴリズムを提案する。
提案された UDE-III は改良された UDE (IUDE または UDE-II) の大幅な改良版であり、実際のパラメータCOPのCEC 2018 コンペで第1位を獲得した。
UDE-IIIを設計するためには、UDE-IIの弱点を広範囲に標的とした。
具体的には、DE/rand/1、DE/current-to-rand/1、DE/current-to-pbest/1の3つの試行ベクトル生成戦略を使用する。
これは二重人口のアプローチに基づいており、各世代で現在の人口を2つのサブ人口に分けている。
上位のサブポピュレーションでは、ターゲットベクトルの3つの試行ベクトル生成戦略を全て採用している。
一方,下層部では戦略適応が採用されており,各ターゲットベクトルに対して1つの試行ベクトル生成戦略が実装されている。
UDE-IIIの突然変異操作はランクに基づく突然変異に基づいている。
さらに、SHADEのパラメータ適応原理を用いる。
UDE-IIIにおける制約ハンドリングの原則は、実現可能性ルールとエプシロン制約ハンドリング技術の組み合わせに基づいている。
停滞はUDE-IIの大きな弱点であることがわかった。
この弱点を克服するため,本論文で提案したBDVS(Best-discarded vector selection)戦略からインスピレーションを得て,UDE-IIIの新たな戦略を統合し,停滞に対処した。
加えて、UDE-IIとは異なり、UDE-IIIは2つのサブポピュレーションのサイズを設計要素とみなしている。
さらに、UDE-IIと比較して、UDE-IIIは戦略適応、ランキングベースの突然変異、制約ハンドリング技術を改善する。
The proposed UDE-III algorithm is test on the 28 benchmark 30D problems for the CEC 2024 competition on real parameter COPs。
実験の結果, UDE-IIIがUDE-IIよりも優れていることが示された。
In this paper, an enhanced unified differential evolution algorithm, named UDE-III, is presented for real parameter-constrained optimization problems (COPs). The proposed UDE-III is a significantly enhanced version of the Improved UDE (i.e., IUDE or UDE-II), which secured the 1st rank in the CEC 2018 competition on real parameter COPs. To design UDE-III, we extensively targeted the weaknesses of UDE-II. Specifically, UDE-III uses three trial vector generation strategies - DE/rand/1, DE/current-to-rand/1, and DE/current-to-pbest/1. It is based on a dual population approach, and for each generation, it divides the current population into two sub-populations. In the top sub-population, it employs all three trial vector generation strategies on each target vector. On the other hand, the bottom sub-population employs strategy adaptation and one trial vector generation strategy is implemented on each target vector. The mutation operation in UDE-III is based on ranking-based mutation. Further, it employs the parameter adaptation principle of SHADE. The constraint handling principle in UDE-III is based on a combination of the feasibility rule and epsilon-constraint handling technique. We observed that stagnation is a major weakness of UDE-II. To overcome this weakness, we took inspiration from the best-discarded vector selection (BDVS) strategy proposed in the literature and integrated a novel strategy in UDE-III to address stagnation. Additionally, unlike UDE-II, UDE-III considers the size of the two sub-populations to be a design element. Moreover, in comparison to UDE-II, UDE-III improves upon the strategy adaptation, ranking-based mutation, and the constraint handling technique. The proposed UDE-III algorithm is tested on the 28 benchmark 30D problems provided for the CEC 2024 competition on real parameter COPs. The experimental results demonstrate the superiority of UDE-III over UDE-II. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 大規模言語モデルを用いたロマンティック関係予測におけるジェンダーと人種の影響について
On the Influence of Gender and Race in Romantic Relationship Prediction from Large Language Models ( http://arxiv.org/abs/2410.03996v1 ) ライセンス: Link先を確認 | Abhilasha Sancheti, Haozhe An, Rachel Rudinger, | (参考訳) 本研究では,大言語モデルにおける異義性バイアスと偏見の存在を,関係予測の課題に対する制御された名前置換実験により検討する。
私たちはモデルがロマンチックな関係を予測しにくいことを示しています。
(a)異性字対より同性字対、及び
(b)黒・ヒスパニック・白名と比較してアジア名を含む人種内・人種間文字ペア。
ファーストネームの文脈的埋め込みについて検討し、アジア名の性別がアジア以外の名前よりも識別しにくいことを見出した。
本研究は, 包括的かつ公平な技術開発を優先する必要性について考察する。
We study the presence of heteronormative biases and prejudice against interracial romantic relationships in large language models by performing controlled name-replacement experiments for the task of relationship prediction. We show that models are less likely to predict romantic relationships for (a) same-gender character pairs than different-gender pairs; and (b) intra/inter-racial character pairs involving Asian names as compared to Black, Hispanic, or White names. We examine the contextualized embeddings of first names and find that gender for Asian names is less discernible than non-Asian names. We discuss the social implications of our findings, underlining the need to prioritize the development of inclusive and equitable technology. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 正規化が校正とロバスト性に及ぼす影響:表現空間の観点から
Impact of Regularization on Calibration and Robustness: from the Representation Space Perspective ( http://arxiv.org/abs/2410.03999v1 ) ライセンス: Link先を確認 | Jonghyun Park, Juyeop Kim, Jong-Seok Lee, | (参考訳) 近年, ソフトラベル, ラベルの平滑化, ミックスアップ, カットミクスを用いた正規化技術は, 画像分類精度の向上だけでなく, モデルキャリブレーションや敵攻撃に対する堅牢性の向上も示している。
しかし、そのような改善の根底にあるメカニズムは未解明のままである。
本稿では、表現空間(すなわち、最上層で得られる特徴の空間)の観点から、新しい説明を提供する。
本研究はまず,正規化の有無にかかわらず,表現空間内の決定領域がトレーニング後の原点付近の円錐状形状を形成することを明らかにした。
しかし、正規化を適用すると特徴(あるいは表現ベクトル)の分布が変化する。
表現ベクトルの大きさは減少し、その後、表現ベクトルとクラス中心(各クラスにおける最小損失点)のコサイン類似度が高くなり、キャリブレーションとロバストネスの改善を誘導する中心的なメカニズムとして機能する。
本研究は,ソフトラベルを用いたトレーニングと正規化に関連して,高次元表現空間の特性に関する新たな知見を提供する。
Recent studies have shown that regularization techniques using soft labels, e.g., label smoothing, Mixup, and CutMix, not only enhance image classification accuracy but also improve model calibration and robustness against adversarial attacks. However, the underlying mechanisms of such improvements remain underexplored. In this paper, we offer a novel explanation from the perspective of the representation space (i.e., the space of the features obtained at the penultimate layer). Our investigation first reveals that the decision regions in the representation space form cone-like shapes around the origin after training regardless of the presence of regularization. However, applying regularization causes changes in the distribution of features (or representation vectors). The magnitudes of the representation vectors are reduced and subsequently the cosine similarities between the representation vectors and the class centers (minimal loss points for each class) become higher, which acts as a central mechanism inducing improved calibration and robustness. Our findings provide new insights into the characteristics of the high-dimensional representation space in relation to training and regularization using soft labels. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 高速LRNRとスパース物理インフォームドバックプロパゲーション
FastLRNR and Sparse Physics Informed Backpropagation ( http://arxiv.org/abs/2410.04001v1 ) ライセンス: Link先を確認 | Woojin Cho, Kookjin Lee, Noseong Park, Donsub Rim, Gerrit Welper, | (参考訳) Sparse Physics Informed Backpropagation (SPInProp) は、低ランクニューラルネットワーク表現(LRNR)と呼ばれる特殊なニューラルネットワークアーキテクチャのバックプロパゲーションを高速化する新しい手法である。
この手法はLRNR内の低階構造を利用し、より小さなニューラルネットワーク近似を構築する。
我々はFastLRNRと呼ぶ。
本稿では,FastLRNRのバックプロパゲーションをLRNRのバックプロパゲーションに置き換えることで,複雑性を大幅に低減できることを示す。
本研究では,SPInPropを物理情報ニューラルネットワークフレームワークに適用し,パラメータ化偏微分方程式の解がいかに加速されるかを実証する。
We introduce Sparse Physics Informed Backpropagation (SPInProp), a new class of methods for accelerating backpropagation for a specialized neural network architecture called Low Rank Neural Representation (LRNR). The approach exploits the low rank structure within LRNR and constructs a reduced neural network approximation that is much smaller in size. We call the smaller network FastLRNR. We show that backpropagation of FastLRNR can be substituted for that of LRNR, enabling a significant reduction in complexity. We apply SPInProp to a physics informed neural networks framework and demonstrate how the solution of parametrized partial differential equations is accelerated. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 実践的検証と説明生成のためのラベル適応型自己分類法
Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation ( http://arxiv.org/abs/2410.04002v1 ) ライセンス: Link先を確認 | Jing Yang, Anderson Rocha, | (参考訳) このタスクでジャーナリストを支援する計算手法は、しばしば特定のドメインにモデルを適応させ、説明を生成する必要がある。
しかし、ほとんどの自動化されたファクトチェック手法は、現実世界の誤報を正確に反映しない3種類のデータセットに依存している。
さらに、事実チェックの説明は、しばしば証拠のテキスト要約に基づいて生成され、主張と証拠の関係に対処することができない。
これらの課題に対処するため、自然言語推論(NLI)タスクで典型的に使用される自己合理化手法を事実検証に拡張する。
まず、アノテートされたラベル(ステップ1モデル)を用いて精度予測を学習するためにモデルを微調整する。
次に、ステップ1モデルを再度微調整し、同じデータと追加の注釈付き説明を用いて自己合理化を学ぶ。
我々のラベル適応手法は,PubHealthとAVeriTecの両方のデータセットにおいて10ポイント以上(マクロF1)の精度予測を向上し,GPT-4モデルより優れていることを示す。
さらに,説明アノテーションの高コスト化に対処するため,GPT-4-turbo,GPT-3.5-turbo,Llama-3-8Bの3つの大言語モデルから64個の合成説明文を生成し,ステップ1モデルの微調整を行った。
合成データを用いた低予算学習の可能性を示すために, 完全微調整自己有理化モデルに比較して, 数ショットの合成説明微調整モデルを実行した。
ラベル適応型自己合理化アプローチは,様々なラベル付け方式による実世界説明可能な事実チェックの今後の研究に有望な方向を示す。
Computational methods to aid journalists in the task often require adapting a model to specific domains and generating explanations. However, most automated fact-checking methods rely on three-class datasets, which do not accurately reflect real-world misinformation. Moreover, fact-checking explanations are often generated based on text summarization of evidence, failing to address the relationship between the claim and the evidence. To address these issues, we extend the self-rationalization method--typically used in natural language inference (NLI) tasks--to fact verification. We propose a label-adaptive learning approach: first, we fine-tune a model to learn veracity prediction with annotated labels (step-1 model). Then, we fine-tune the step-1 model again to learn self-rationalization, using the same data and additional annotated explanations. Our results show that our label-adaptive approach improves veracity prediction by more than ten percentage points (Macro F1) on both the PubHealth and AVeriTec datasets, outperforming the GPT-4 model. Furthermore, to address the high cost of explanation annotation, we generated 64 synthetic explanations from three large language models: GPT-4-turbo, GPT-3.5-turbo, and Llama-3-8B and few-shot fine-tune our step-1 model. The few-shot synthetic explanation fine-tuned model performed comparably to the fully fine-tuned self-rationalization model, demonstrating the potential of low-budget learning with synthetic data. Our label-adaptive self-rationalization approach presents a promising direction for future research on real-world explainable fact-checking with different labeling schemes. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 高度なランダム鍵生成に基づくデバイス非依存型量子秘密共有
Device-independent quantum secret sharing with advanced random key generation basis ( http://arxiv.org/abs/2410.04003v1 ) ライセンス: Link先を確認 | Qi Zhang, Jia-Wei Ying, Zhong-Jian Wang, Wei Zhong, Ming-Ming Du, Shu-Ting Shen, Xi-Yun Li, An-Lei Zhang, Shi-Pu Gu, Xing-Fu Wang, Lan Zhou, Yu-Bo Sheng, | (参考訳) 量子秘密共有(QSS)は、ディーラーが鍵を複数のプレイヤーに安全に配布することを可能にする。
デバイス非依存(DI) QSSは、実用的な不完全なデバイスからの攻撃に対して抵抗し、理論上最も高いレベルのセキュリティを提供する。
しかし、DI QSSは特に低ノイズチャンネルのために高性能なデバイスを必要とする。
ノイズ前処理とポストセレクションの戦略を組み合わさった,高度なランダム鍵生成ベース戦略を備えたDI QSSプロトコルを提案する。
我々は,Eveの条件付きエントロピー境界を単純化し,許容時間で鍵生成率を数値的にシミュレートする手法を開発した。
当社のDI QSSプロトコルにはいくつかの利点があります。
まず、ノイズ耐性の閾値を初期7.147%から9.231%(29.16%)に引き上げ、グローバル検出効率の閾値を96.32%から93.41%に下げる。
利用者間の最大距離は1.43kmであり、初期値の約5.5倍である。
第二に、鍵を生成するために2つの基本組合せをランダムに選択することで、我々のDI QSSプロトコルは、絡み合ったリソース消費を減らすことができる。
我々のプロトコルは、将来DI QSSの実験と応用の可能性を持っている。
Quantum secret sharing (QSS) enables a dealer to securely distribute keys to multiple players. Device-independent (DI) QSS can resist all possible attacks from practical imperfect devices and provide QSS the highest level of security in theory. However, DI QSS requires high-performance devices, especially for low-noise channels, which is a big challenge for its experimental demonstration. We propose a DI QSS protocol with the advanced random key generation basis strategy, which combines the random key generation basis with the noise preprocessing and postselection strategies. We develop the methods to simplify Eve's conditional entropy bound and numerically simulate the key generation rate in an acceptable time. Our DI QSS protocol has some advantages. First, it can increase the noise tolerance threshold from initial 7.147% to 9.231% (29.16% growth), and reduce the global detection efficiency threshold from 96.32% to 93.41%. The maximal distance between any two users increases to 1.43 km, which is about 5.5 times of the initial value. Second, by randomly selecting two basis combinations to generate the key, our DI QSS protocol can reduce the entanglement resource consumption. Our protocol has potential for DI QSS's experimental demonstration and application in the future. | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# 非退化ハイパーラマン過程における量子相関の探索
Probing quantum correlations in non-degenerate hyper-Raman process ( http://arxiv.org/abs/2410.04007v1 ) ライセンス: Link先を確認 | Moumita Das, Biswajit Sen, Ankur Sensharma, Kishore Thapliyal, Anirban Pathak, | (参考訳) 超ラマン系で発生した単一および多モードの量子相関に対するプローブの影響に特異的な注意を払って, 単一モードと相互量子相関(例えば, 反バンキング, ステアリング, 絡み合い)の観測可能性について検討した。
ここで研究された物理系は、プローブが非線形結合を介して超ラマン活性系の非退化ポンプモードと連続的に相互作用すると考えている。
調査の結果、ラマン系における量子相関はプローブを用いて制御できることが判明した。
さらに, ポンプと反ストークスモードの量子ステアリングは, システムとプローブの相互作用を制御することにより, 大きく影響することが観察された。
ステアリングとは異なり、プローブは非古典的相関、すなわち、モーダル間の絡み合いと光子アンチバンチングを悪化させることも、それらを誘導することもできなかった。
しかし、対応する非古典的効果の目撃者は、プローブの初期状態と結合強度に依存する。
Possibilities of observing single mode and intermodal quantum correlations (e.g., antibunching, steering and entanglement) are studied for a probed-hyper-Raman system with specific attention on the impact of a probe on the single and multi-mode quantum correlations generated in a hyper-Raman active system. The physical system studied here considers that the probe interacts continuously with the non-degenerate pump modes in the hyper-Raman active system via a nonlinear coupling. The investigation has revealed that quantum correlations in the Raman systems can be controlled using the probe. Further, it is observed that the quantum steering between the pump and anti-Stokes modes can be influenced significantly by controlling the interaction between the system and the probe. Unlike steering, probe could neither deteriorate the nonclassical correlations, namely intermodal entanglement and photon antibunching, nor induce them. Though the witness of the corresponding nonclassical effect depends on the initial state of the probe as well as the coupling strength | 翻訳日:2024-11-02 14:50:11 公開日:2024-10-05 |
# カルタン座標解析フレームワークを用いた量子命令セットの設計
Design the Quantum Instruction Set with the Cartan Coordinate Analysis Framework ( http://arxiv.org/abs/2410.04008v1 ) ライセンス: Link先を確認 | Anbang Wu, | (参考訳) ほとんどの量子コンパイルは、一般的な量子演算を実装するために、CXやiSWAPのような標準的な2量子基底ゲートに依存している。
しかし、量子アーキテクチャ設計の進歩により、より標準でない2ビットゲートがデバイス上で実装され、校正できるようになった。
これらの非標準ゲートを使用することで、量子計算の性能が向上する可能性がある。
この可能性にもかかわらず、量子優位性を高めるためにこれらの非標準ゲートを量子命令セットに効率的に組み込む方法は不明である。
そこで本研究では,非標準ゲートに基づく量子命令セットの設計を容易にする解析フレームワークを提案する。
提案手法は, KAK分解と2量子演算のカルタン座標の解析に基礎を置いており, 任意の2量子演算間の解析変換を可能にする。
このフレームワークはまた、変換コストの下限と上限を実証し、2ビット命令の絡み合うパワーとカルタン座標の関係を明らかにする。
さらに,解析フレームワークに基づくコンパイラを開発し,非標準2ビット命令によるユニタリ分解コストを低減する。
提案するコンパイラを用いて、非標準ゲートに基づく量子命令セットを設計するための様々な選択肢を評価する。
本実験は,量子命令セット設計における提案手法の有効性を実証するものである。
数値探索に基づく最先端手法と比較して,我々のフレームワークは命令セット設計空間を何千回も探索する際の時間/リソースのオーバーヘッドを低減する。
さらに、確立されたフレームワークを用いて、実世界の量子プロセッサをモデル化し、量子命令セットの実現可能な設計を提案し、量子優位性をさらに促進する。
Most quantum compiling efforts rely on standard two-qubit basis gates, such as CX and iSWAP, to implement general quantum operations. However, with the advancement of quantum architecture design, more nonstandard two-qubit gates can now be implemented and calibrated on devices. Using these nonstandard gates may improve the performance of quantum computation. Despite this potential, it remains unclear how to efficiently incorporate these nonstandard gates into the quantum instruction set to enhance quantum advantage. To address this, we propose an analytical framework that facilitates the design of quantum instruction sets based on nonstandard gates. Our approach is grounded in the KAK decomposition and an analysis of the Cartan coordinate of two-qubit operations, enabling analytical conversion between any two two-qubit operations. This framework also demonstrates the lower and upper bounds of the conversion cost, revealing the relationship between the entangling power of two-qubit instructions and their Cartan coordinates. We further develop a compiler based on the analytical framework, which reduces the unitary decomposition cost with nonstandard two-qubit instructions. Using the proposed compiler, we evaluate various options for designing a quantum instruction set based on nonstandard gates. Our experiments demonstrate the efficiency of the proposed framework in the quantum instruction set design. Compared to the state-of-the-art method that is based on the numerical search, our framework reduces the time/resource overhead of exploring the instruction set design space by thousands of times. Moreover, with the established framework, we propose feasible designs for the quantum instruction set by modeling real-world quantum processors, further promoting the quantum advantage. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# ASPIRER: LLMの置換ベースのバックドアでシステムプロンプトをバイパスする
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs ( http://arxiv.org/abs/2410.04009v1 ) ライセンス: Link先を確認 | Lu Yan, Siyuan Cheng, Xuan Chen, Kaiyuan Zhang, Guangyu Shen, Zhuo Zhang, Xiangyu Zhang, | (参考訳) 大規模言語モデル(LLM)は多くのアプリケーションに不可欠なものとなり、システムのプロンプトはモデルの振る舞いを規制し倫理的な出力を確保する重要なメカニズムとして機能する。
本稿では,これらのシステムプロンプトを体系的に回避し,AIサプライチェーンに重大なリスクをもたらす新しいバックドア攻撃を提案する。
通常の条件下では、モデルはシステムプロンプトに厳密に従う。
しかし、私たちのバックドアは、悪質なアクターが起動時にこれらの保護を回避できるようにします。
具体的には,LLMプロバイダがベースモデル内に隠蔽トリガを埋め込むシナリオについて検討する。
隠れたトリガを知らないダウンストリームのデプロイ装置は、モデルを微調整し、ユーザにサービスとして提供する。
悪意のあるアクターは、プロバイダからトリガーを購入して、デプロイされたモデルを悪用し、システムのプロンプトを無効にし、制限された結果を達成するために使用することができる。
我々の攻撃では、正確な順序でコンポーネントが配置された場合にのみ起動する置換トリガを用いており、計算学的に検出またはリバースエンジニアリングが困難である。
我々は,5つの最先端モデルに対するアプローチを評価し,攻撃成功率(ASR)を99.50%まで向上させるとともに,防御微調整後においても98.58%のクリーン精度(CACC)を維持しながら,攻撃成功率(ASR)を最大99.50%向上させることを示した。
これらの発見は、LLMデプロイメントパイプラインの重大な脆弱性を浮き彫りにして、より強力な防御の必要性を浮き彫りにしている。
Large Language Models (LLMs) have become integral to many applications, with system prompts serving as a key mechanism to regulate model behavior and ensure ethical outputs. In this paper, we introduce a novel backdoor attack that systematically bypasses these system prompts, posing significant risks to the AI supply chain. Under normal conditions, the model adheres strictly to its system prompts. However, our backdoor allows malicious actors to circumvent these safeguards when triggered. Specifically, we explore a scenario where an LLM provider embeds a covert trigger within the base model. A downstream deployer, unaware of the hidden trigger, fine-tunes the model and offers it as a service to users. Malicious actors can purchase the trigger from the provider and use it to exploit the deployed model, disabling system prompts and achieving restricted outcomes. Our attack utilizes a permutation trigger, which activates only when its components are arranged in a precise order, making it computationally challenging to detect or reverse-engineer. We evaluate our approach on five state-of-the-art models, demonstrating that our method achieves an attack success rate (ASR) of up to 99.50% while maintaining a clean accuracy (CACC) of 98.58%, even after defensive fine-tuning. These findings highlight critical vulnerabilities in LLM deployment pipelines and underscore the need for stronger defenses. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 大規模言語モデルのための双曲的微調整
Hyperbolic Fine-tuning for Large Language Models ( http://arxiv.org/abs/2410.04010v1 ) ライセンス: Link先を確認 | Menglin Yang, Aosong Feng, Bo Xiong, Jihong Liu, Irwin King, Rex Ying, | (参考訳) 大規模言語モデル (LLM) は様々なタスクにおいて顕著な性能を示した。
しかし、デフォルトのユークリッド空間が LLM にトークンを埋め込むのに最も適した選択であるかどうかについては未解決のままである。
本研究では, LLMの非ユークリッド特性について検討した。
その結果, 起点付近に高周波のトークンが集結し, 遠方に位置する低周波のトークンが出現した。
さらに、トークン埋め込みは高い双曲性を示し、埋め込み空間に潜木のような構造を示す。
そこで本研究では, 双曲空間のLLMを効率よく微調整し, 基礎となる複雑な構造をよりよく活用することを提案する。
しかし、この双曲空間の微調整は、埋め込み行列と重み行列がともにユークリッド空間に存在するとき、指数写像と対数写像の単純適用では達成できないことがわかった。
この問題を解決するために,双曲的低ランク高効率微調整法HypLoRAを導入し,指数写像や対数写像によるキャンセル効果を回避し,双曲的モデリング能力を保ちながら,双曲的多様体に直接低ランク適応を行う。
実験により,HypLoRAは推論タスク,特に複雑な推論問題において,LLMの性能を著しく向上させることを示した。
特にHypLoRAは、複雑なAQuAデータセットのパフォーマンスを最大13.0%改善し、複雑な推論問題に対処する効果を示している。
Large language models (LLMs) have demonstrated remarkable performance on various tasks. However, it remains an open question whether the default Euclidean space is the most suitable choice for embedding tokens in LLMs. In this study, we first investigate the non-Euclidean characteristics of LLMs. Our findings reveal that token frequency follows a power-law distribution, with high-frequency tokens clustering near the origin and low-frequency tokens positioned farther away. Additionally, token embeddings exhibit a high degree of hyperbolicity, indicating a latent tree-like structure in the embedding space. Building on the observation, we propose to efficiently fine-tune LLMs in hyperbolic space to better exploit the underlying complex structures. However, we found that this fine-tuning in hyperbolic space cannot be achieved with naive application of exponential and logarithmic maps, when the embedding and weight matrices both reside in Euclidean space. To address this technique issue, we introduce a new method called hyperbolic low-rank efficient fine-tuning, HypLoRA, that performs low-rank adaptation directly on the hyperbolic manifold, avoiding the cancellation effect caused by the exponential and logarithmic maps, thus preserving the hyperbolic modeling capabilities. Through extensive experiments, we demonstrate that HypLoRA significantly enhances the performance of LLMs on reasoning tasks, particularly for complex reasoning problems. In particular, HypLoRA improves the performance in the complex AQuA dataset by up to 13.0%, showcasing its effectiveness in handling complex reasoning challenges | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# JAM: 年齢推定, 検証, 比較可能性に関する総合モデル
JAM: A Comprehensive Model for Age Estimation, Verification, and Comparability ( http://arxiv.org/abs/2410.04012v1 ) ライセンス: Link先を確認 | François David, Alexey A. Novikov, Ruslan Parkhomenko, Artem Voronin, Alix Melchy, | (参考訳) 本稿では, 年齢推定, 検証, コンパビリティの包括的モデルを導入し, 幅広いアプリケーションに包括的ソリューションを提供する。
年齢分布を理解するために高度な学習技術を採用し、信頼性スコアを使用して確率的年齢範囲を作成し、あいまいなケースを扱う能力を高めている。
このモデルは、プロプライエタリなデータセットとパブリックなデータセットの両方でテストされ、この分野で最もパフォーマンスの高いモデルの1つと比較されている。
さらに、最近NISTによってFATEチャレンジの一部として評価され、多くのカテゴリでトップの座を獲得した。
This paper introduces a comprehensive model for age estimation, verification, and comparability, offering a comprehensive solution for a wide range of applications. It employs advanced learning techniques to understand age distribution and uses confidence scores to create probabilistic age ranges, enhancing its ability to handle ambiguous cases. The model has been tested on both proprietary and public datasets and compared against one of the top-performing models in the field. Additionally, it has recently been evaluated by NIST as part of the FATE challenge, achieving top places in many categories. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 時間的歩行行列投影による時間的リンク予測の改善
Improving Temporal Link Prediction via Temporal Walk Matrix Projection ( http://arxiv.org/abs/2410.04013v1 ) ライセンス: Link先を確認 | Xiaodong Lu, Leilei Sun, Tongyu Zhu, Weifeng Lv, | (参考訳) 時系列リンク予測は、歴史的相互作用に基づくエンティティ間の将来の相互作用を予測することを目的としており、一連の実世界のアプリケーションにとって不可欠である。
従来の手法では、効率的な時間的リンク予測のための相対的エンコーディングの重要性が証明されてきたが、計算効率はこれらのエンコーディングを構築する上でも大きな関心事である。
さらに、既存の相対符号化は通常、時間情報がほとんど考慮されない構造接続に基づいて構築される。
上記の問題に対処するために、我々はまず既存の相対的エンコーディングを分析し、時間的歩行行列の関数としてそれらを統一する。
この統合は、相対的エンコーディングと時間的ウォーク行列の接続を確立し、相対的エンコーディングを分析し設計するためのより原則化された方法を提供する。
本研究では,時間減衰効果を組み込んだ時間的歩行行列を導入し,時間的情報と構造的情報の両方を同時に検討する,TPNetと呼ばれる新しい時間的グラフニューラルネットワークを提案する。
さらに、TPNetは、時間的歩行行列を暗黙的に維持する理論的な保証を持つランダムな特徴伝達機構を設計し、計算と記憶効率を向上させる。
13のベンチマークデータセットによる実験結果は、TPNetの有効性と効率を検証し、TPNetはほとんどのデータセットで他のベースラインよりも優れ、SOTAベースラインと比較して最大で33.3 \times$のスピードアップを達成する。
我々のコードは \url{https://github.com/lxd99/TPNet} にある。
Temporal link prediction, aiming at predicting future interactions among entities based on historical interactions, is crucial for a series of real-world applications. Although previous methods have demonstrated the importance of relative encodings for effective temporal link prediction, computational efficiency remains a major concern in constructing these encodings. Moreover, existing relative encodings are usually constructed based on structural connectivity, where temporal information is seldom considered. To address the aforementioned issues, we first analyze existing relative encodings and unify them as a function of temporal walk matrices. This unification establishes a connection between relative encodings and temporal walk matrices, providing a more principled way for analyzing and designing relative encodings. Based on this analysis, we propose a new temporal graph neural network called TPNet, which introduces a temporal walk matrix that incorporates the time decay effect to simultaneously consider both temporal and structural information. Moreover, TPNet designs a random feature propagation mechanism with theoretical guarantees to implicitly maintain the temporal walk matrices, which improves the computation and storage efficiency. Experimental results on 13 benchmark datasets verify the effectiveness and efficiency of TPNet, where TPNet outperforms other baselines on most datasets and achieves a maximum speedup of $33.3 \times$ compared to the SOTA baseline. Our code can be found at \url{https://github.com/lxd99/TPNet}. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# Sccinct Fermion Data Structures
Succinct Fermion Data Structures ( http://arxiv.org/abs/2410.04015v1 ) ライセンス: Link先を確認 | Joseph Carolan, Luke Schaeffer, | (参考訳) 量子コンピュータ上のフェルミオン系をシミュレーションするには、量子ビットを用いてフェルミオン状態を表現する必要がある。
多くのシミュレーションアルゴリズムの複雑さは、フェルミオン生成消滅演算子によって生成される回転を実装する複雑さに依存し、空間は使用される量子ビットの数に依存する。
ジョルダン=ウィグナーのような標準的なフェルミオン符号化は任意のフェルミオン系に最適であるが、粒子保存のような物理対称性は物理配置の数を減少させ、空間の複雑さを改善させる。
このような空間の節約は、ゲートのオーバーヘッドが小さい場合にのみ実現可能であり、これは(量子)データ構造の問題であり、フェミオン状態を表すために使われる空間を最小化したいが、それでも効率的な回転が可能であることを示唆している。
我々は、フェルミオンからキュービットの系への写像を自然にキャプチャする構造を定義する。
次に2つの方法でインスタンス化し、M$モードで$F$フェルミオンの2番目の量子化フェルミオンエンコーディングを発生させる。
そのようなシステムには、情報理論の最小値 $\mathcal{I}:=\lceil\log \binom{M}{F}\rceil$ qubits が要求される。
最初の構成では、$F=o(M)$のときに$\mathcal I+o(\mathcal I)$ qubitsを使用し、$O(\mathcal I)$ gates と $O(\log M \log \log M)$ depth で生成消滅演算子によって生成される回転を可能にする。
2つ目の構成では、$F=\Theta(M)$のときに$\mathcal I+O(1)$ qubitsを使用し、$O(\mathcal I^3)$ Gatesにおける生成消滅演算子によって生成される回転を可能にする。
類似した先行研究に関して、第1は空間とゲートの複雑さの多項式的改善(Kirby et al 2022 )を表し、第2はパラメータのシステマティクスにおいて、一定数の追加キュービット(Harrison et al または Shee et al 2022 )のコストでゲートの複雑性を指数関数的に改善する。
Simulating fermionic systems on a quantum computer requires representing fermionic states using qubits. The complexity of many simulation algorithms depends on the complexity of implementing rotations generated by fermionic creation-annihilation operators, and the space depends on the number of qubits used. While standard fermion encodings like Jordan-Wigner are space optimal for arbitrary fermionic systems, physical symmetries like particle conservation can reduce the number of physical configurations, allowing improved space complexity. Such space saving is only feasible if the gate overhead is small, suggesting a (quantum) data structures problem, wherein one would like to minimize space used to represent a fermionic state, while still enabling efficient rotations. We define a structure which naturally captures mappings from fermions to systems of qubits. We then instantiate it in two ways, giving rise to two new second-quantized fermion encodings of $F$ fermions in $M$ modes. An information theoretic minimum of $\mathcal{I}:=\lceil\log \binom{M}{F}\rceil$ qubits is required for such systems, a bound we nearly match over the entire parameter regime. (1) Our first construction uses $\mathcal I+o(\mathcal I)$ qubits when $F=o(M)$, and allows rotations generated by creation-annihilation operators in $O(\mathcal I)$ gates and $O(\log M \log \log M)$ depth. (2) Our second construction uses $\mathcal I+O(1)$ qubits when $F=\Theta(M)$, and allows rotations generated by creation-annihilation operators in $O(\mathcal I^3)$ gates. In relation to comparable prior work, the first represents a polynomial improvement in both space and gate complexity (against Kirby et al. 2022), and the second represents an exponential improvement in gate complexity at the cost of only a constant number of additional qubits (against Harrison et al. or Shee et al. 2022), in the described parameter regimes. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 大規模都市パーキング予測の効率化:リアルタイムパーキングサービス機能に基づくグラフ粗化
Efficient Large-Scale Urban Parking Prediction: Graph Coarsening Based on Real-Time Parking Service Capability ( http://arxiv.org/abs/2410.04022v1 ) ライセンス: Link先を確認 | Yixuan Wang, Zhenwu Chen, Kangshuai Zhang, Yunduan Cui, Lei Peng, | (参考訳) 車両の数が急増する中で、駐車難の問題は、多くの都市が迅速に対応しなければならない緊急の課題として浮上している。
大規模都市駐車場データを予測するタスクでは、既存の研究は効果的なディープラーニングモデルや戦略を欠いていることが多い。
この課題に対処するために, リアルタイムサービス機能を活用した大規模都市駐車場グラフの予測手法を提案し, 駐車予測の精度と効率を向上させることを目的とした。
具体的には、駐車場のリアルタイムサービス機能を評価するグラフアテンション機構を導入し、駐車行動の実際の嗜好を正確に反映した動的な駐車グラフを構築する。
大規模駐車データを効果的に処理するために, グラフ粗大化手法と時間畳み込みオートエンコーダを組み合わせることで, 複雑な都市駐車場グラフ構造と特徴の統一次元化を実現する。
その後、時空間グラフ畳み込みモデルを用いて粗いグラフに基づいて予測を行い、事前訓練されたオートエンコーダデコーダモジュールが予測結果を元のデータ次元に復元し、タスクを完了させる。
我々の手法は深センの駐車場から得られた実際のデータセットで厳格に検証されている。
実験の結果,従来の駐車予測モデルと比較して,46.8\%と30.5\%の精度向上を実現していることがわかった。
注目すべきは、グラフの規模が拡大するにつれ、我々のフレームワークの利点はさらに明らかになり、現実的なシナリオにおいて複雑な都市駐車場ジレンマを解決するための大きな可能性を示すことである。
With the sharp increase in the number of vehicles, the issue of parking difficulties has emerged as an urgent challenge that many cities need to address promptly. In the task of predicting large-scale urban parking data, existing research often lacks effective deep learning models and strategies. To tackle this challenge, this paper proposes an innovative framework for predicting large-scale urban parking graphs leveraging real-time service capabilities, aimed at improving the accuracy and efficiency of parking predictions. Specifically, we introduce a graph attention mechanism that assesses the real-time service capabilities of parking lots to construct a dynamic parking graph that accurately reflects real preferences in parking behavior. To effectively handle large-scale parking data, this study combines graph coarsening techniques with temporal convolutional autoencoders to achieve unified dimension reduction of the complex urban parking graph structure and features. Subsequently, we use a spatio-temporal graph convolutional model to make predictions based on the coarsened graph, and a pre-trained autoencoder-decoder module restores the predicted results to their original data dimensions, completing the task. Our methodology has been rigorously tested on a real dataset from parking lots in Shenzhen. The experimental results indicate that compared to traditional parking prediction models, our framework achieves improvements of 46.8\% and 30.5\% in accuracy and efficiency, respectively. Remarkably, with the expansion of the graph's scale, our framework's advantages become even more apparent, showcasing its substantial potential for solving complex urban parking dilemmas in practical scenarios. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# IdeaSynth: 文学中心のフィードバックによるアイデアフェイスの進化と構成による反復的な研究思想開発
IdeaSynth: Iterative Research Idea Development Through Evolving and Composing Idea Facets with Literature-Grounded Feedback ( http://arxiv.org/abs/2410.04025v1 ) ライセンス: Link先を確認 | Kevin Pu, K. J. Kevin Feng, Tovi Grossman, Tom Hope, Bhavana Dalvi Mishra, Matt Latzke, Jonathan Bragg, Joseph Chee Chang, Pao Siangliulue, | (参考訳) 研究のアイデアには、広い探索と深い精錬のアイデアが含まれる。
どちらも文学との深い関わりを必要としている。
既存のツールは、主にアイデアの幅広い世代に焦点を当てているが、初期アイデアをさらに発展させるために必要な反復的な仕様、改良、評価はほとんどサポートしていない。
このギャップを埋めるため,LLMを用いた研究アイデア開発システムであるIdeanSynthを紹介した。
IdeaSynthは、これらのアイデアのファセットを、キャンバス上のノードとして表現し、研究者がバリエーションを作成して探索することによって、それらを反復的に洗練することができる。
実験結果(N=20)では,IdeanSynthを併用しながら,新たなアイデアを探求し,LLMベースの強力なベースラインと比較して,より詳細で初期アイデアを拡張した。
展開調査 (N=7) では,IdeoSynthを,初期アイデアから成熟した原稿のフレーミングの修正まで,様々なアイデア段階における実世界の研究プロジェクトにおいて効果的に活用することを示し,研究者のワークフローにIdeoSynthを採用する可能性を強調した。
Research ideation involves broad exploring and deep refining ideas. Both require deep engagement with literature. Existing tools focus primarily on idea broad generation, yet offer little support for iterative specification, refinement, and evaluation needed to further develop initial ideas. To bridge this gap, we introduce IdeaSynth, a research idea development system that uses LLMs to provide literature-grounded feedback for articulating research problems, solutions, evaluations, and contributions. IdeaSynth represents these idea facets as nodes on a canvas, and allow researchers to iteratively refine them by creating and exploring variations and composing them. Our lab study (N=20) showed that participants, while using IdeaSynth, explored more alternative ideas and expanded initial ideas with more details compared to a strong LLM-based baseline. Our deployment study (N=7) demonstrated that participants effectively used IdeaSynth for real-world research projects at various ideation stages from developing initial ideas to revising framings of mature manuscripts, highlighting the possibilities to adopt IdeaSynth in researcher's workflows. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 大規模言語モデルに基づく簡素かつ効果的な中国語スペル誤り訂正法
A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models ( http://arxiv.org/abs/2410.04027v1 ) ライセンス: Link先を確認 | Houquan Zhou, Zhenghua Li, Bo Zhang, Chen Li, Shaopeng Lai, Ji Zhang, Fei Huang, Min Zhang, | (参考訳) 本研究は、中国語スペル訂正(CSC)タスクに大規模な言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
キーとなるアイデアは、従来の方法でLLMを純粋な言語モデルとして使うことです。
LLMは入力文を初めから通り抜け、各推論ステップでは、部分文を与えられた次のトークンを決定するための語彙上の分布を生成する。
出力文が入力文に忠実であることを保証するため、原文字と置換文字の発音や形状の類似性を利用した最小歪みモデルを設計する。
さらに,CSCタスクに特有の実践的課題に対処するための2つの有用な報奨戦略を提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善し、最先端のドメイン汎用CSCモデルと競合することを示した。
This work proposes a simple training-free prompt-free approach to leverage large language models (LLMs) for the Chinese spelling correction (CSC) task, which is totally different from all previous CSC approaches. The key idea is to use an LLM as a pure language model in a conventional manner. The LLM goes through the input sentence from the beginning, and at each inference step, produces a distribution over its vocabulary for deciding the next token, given a partial sentence. To ensure that the output sentence remains faithful to the input sentence, we design a minimal distortion model that utilizes pronunciation or shape similarities between the original and replaced characters. Furthermore, we propose two useful reward strategies to address practical challenges specific to the CSC task. Experiments on five public datasets demonstrate that our approach significantly improves LLM performance, enabling them to compete with state-of-the-art domain-general CSC models. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# SyllableLM: 音声認識モデルのための粗意味単位の学習
SyllableLM: Learning Coarse Semantic Units for Speech Language Models ( http://arxiv.org/abs/2410.04029v1 ) ライセンス: Link先を確認 | Alan Baade, Puyuan Peng, David Harwath, | (参考訳) 言語モデルはトークン化された入力を必要とする。
しかし、オーディオやビジョンのような連続データに対するトークン化戦略は、しばしば固定サイズの畳み込みや離散クラスタリングのような単純なヒューリスティックに基づいており、必ずしもデータのセマンティック構造と一致しない。
特に音声の場合、高解像度の波形(16,000サンプル/秒以上)は、音声ベースの言語モデルでは、テキストベースの言語モデルよりも数倍のトークンを使用する必要があったため、大きな課題となる。
本研究では,意味情報を保存しながら,音声表現を粗い音節的単位にマージする制御可能な自己教師手法を提案する。
私たちはこれをします
1)事前学習したエンコーダ損失と相関関係の分析によるノイズ境界の抽出
2) 新しい蒸留技術によりモデル表現を反復的に改善する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,音節分割とクラスタリングでSotAを実現する。
これらの粗いトークンを用いて,SyllableLM(SpeechLM)の訓練に成功した。
SyllableLMはまた、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
Language models require tokenized inputs. However, tokenization strategies for continuous data like audio and vision are often based on simple heuristics such as fixed sized convolutions or discrete clustering, which do not necessarily align with the semantic structure of the data. For speech in particular, the high resolution of waveforms (16,000 samples/second or more) presents a significant challenge as speech-based language models have had to use several times more tokens per word than text-based language models. In this work, we introduce a controllable self-supervised technique to merge speech representations into coarser syllable-like units while still preserving semantic information. We do this by 1) extracting noisy boundaries through analyzing correlations in pretrained encoder losses and 2) iteratively improving model representations with a novel distillation technique. Our method produces controllable-rate semantic units at as low as 5Hz and 60bps and achieves SotA in syllabic segmentation and clustering. Using these coarse tokens, we successfully train SyllableLM, a Speech Language Model (SpeechLM) that matches or outperforms current SotA SpeechLMs on a range of spoken language modeling tasks. SyllableLM also achieves significant improvements in efficiency with a 30x reduction in training compute and a 4x wall-clock inference speedup. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 量子近似最適化アルゴリズムにおける制約符号化法の比較
A comparison on constrain encoding methods for quantum approximate optimization algorithm ( http://arxiv.org/abs/2410.04030v1 ) ライセンス: Link先を確認 | Yiwen Liu, Qingyue Jiao, Yidong Zhou, Zhiding Liang, Yiyu Shi, Ke Wan, Shangjie Guo, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、特に誤り訂正が完全に実現される前の時代に、実用的な量子コンピューティングアプリケーションにとって重要な機会である。
このアルゴリズムは、サプライチェーン管理、エネルギー分布、金融モデリングなど、様々な分野において重要な制約満足度問題(CSP)に対処するために特に有用である。
本研究では、線形制約をQAOAに組み込むための3つの異なる戦略を数値的に比較する。
本研究は,knapsack 問題を事例として,これらの手法の有効性と有効性を評価するものである。
本研究は,様々なユースケースにおいて,異なるエンコーディング手法の適用可能性について考察した。
The Quantum Approximate Optimization Algorithm (QAOA) represents a significant opportunity for practical quantum computing applications, particularly in the era before error correction is fully realized. This algorithm is especially relevant for addressing constraint satisfaction problems (CSPs), which are critical in various fields such as supply chain management, energy distribution, and financial modeling. In our study, we conduct a numerical comparison of three different strategies for incorporating linear constraints into QAOA: transforming them into an unconstrained format, introducing penalty dephasing, and utilizing the quantum Zeno effect. We assess the efficiency and effectiveness of these methods using the knapsack problem as a case study. Our findings provide insights into the potential applicability of different encoding methods for various use cases. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# ForgeryTTT:テスト時間トレーニングによるゼロショット画像操作位置決め
ForgeryTTT: Zero-Shot Image Manipulation Localization with Test-Time Training ( http://arxiv.org/abs/2410.04032v1 ) ライセンス: Link先を確認 | Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun, | (参考訳) ソーシャルメディアは、現実的なフェイク画像に悩まされているため、コンテンツを信頼するのは難しい。
これらの偽物を検出するアルゴリズムは、特定のデータセットでトレーニングされているため、新しい現実世界のシナリオでは失敗することが多い。
この問題を解決するために,テスト時間トレーニング(TTT)を利用した画像中の操作領域の同定手法であるForgeryTTTを導入する。
提案手法は各テストサンプル毎にモデルを微調整し,性能を向上する。
ForgeryTTTはまず、視覚変換器を共有イメージエンコーダとして使用して、大規模な合成データセットを使用してトレーニング時間トレーニング中に、分類タスクとローカライゼーションタスクの両方を同時に学習する。
正確には、ローカライゼーションヘッドはマスクを予測して、操作された領域をハイライトする。
このようなマスクが与えられた場合、入力トークンは操作されたグループと本物のグループに分割することができ、それを分類ヘッドに送って操作された部分と本物の部分とを区別する。
テスト時間トレーニング中、ローカライゼーションヘッドからの予測マスクを分類ヘッドに使用し、画像エンコーダを更新して適応性を向上させる。
さらに、各トークングループで古典的なドロップアウト戦略を使用することで、パフォーマンスと効率が大幅に向上する。
5つの標準ベンチマークでForgeryTTTをテストする。
その単純さにもかかわらず、ForgeryTTTは、他のゼロショット手法と比較して、ローカライズ精度が20.1%向上し、ノンゼロショット技術よりも4.3%向上した。
私たちのコードとデータは出版時に公開されます。
Social media is increasingly plagued by realistic fake images, making it hard to trust content. Previous algorithms to detect these fakes often fail in new, real-world scenarios because they are trained on specific datasets. To address the problem, we introduce ForgeryTTT, the first method leveraging test-time training (TTT) to identify manipulated regions in images. The proposed approach fine-tunes the model for each individual test sample, improving its performance. ForgeryTTT first employs vision transformers as a shared image encoder to learn both classification and localization tasks simultaneously during the training-time training using a large synthetic dataset. Precisely, the localization head predicts a mask to highlight manipulated areas. Given such a mask, the input tokens can be divided into manipulated and genuine groups, which are then fed into the classification head to distinguish between manipulated and genuine parts. During test-time training, the predicted mask from the localization head is used for the classification head to update the image encoder for better adaptation. Additionally, using the classical dropout strategy in each token group significantly improves performance and efficiency. We test ForgeryTTT on five standard benchmarks. Despite its simplicity, ForgeryTTT achieves a 20.1% improvement in localization accuracy compared to other zero-shot methods and a 4.3% improvement over non-zero-shot techniques. Our code and data will be released upon publication. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# スコアマッチングはポイントプロセスの推定に適しているか?
Is Score Matching Suitable for Estimating Point Processes? ( http://arxiv.org/abs/2410.04037v1 ) ライセンス: Link先を確認 | Haoqun Cao, Zizhuo Meng, Tianjun Ke, Feng Zhou, | (参考訳) スコアマッチング推定器は、定数の正規化の積分を計算できず、最大推定(MLE)における計算課題に対処するため、近年広く注目を集めている。
既存の研究では点過程のスコアマッチング推定器が提案されている。
しかしながら、これらの研究で提案された推定器の不完全性は、特定の問題にのみ適用可能であることを示し、より一般的な点過程では失敗する。
この問題に対処するために、この研究は点過程に重み付けされたスコアマッチング推定器を導入している。
理論的には、推定器の整合性を証明し、収束率を確立する。
実験結果から,合成データのモデルパラメータを精度良く推定し,実データ上でのMLEと整合した結果が得られることがわかった。
対照的に、既存のスコアマッチング推定器は、効果的に実行できない。
コードは \url{https://github.com/KenCao2007/WSM_TPP} で公開されている。
Score matching estimators have gained widespread attention in recent years partly because they are free from calculating the integral of normalizing constant, thereby addressing the computational challenges in maximum likelihood estimation (MLE). Some existing works have proposed score matching estimators for point processes. However, this work demonstrates that the incompleteness of the estimators proposed in those works renders them applicable only to specific problems, and they fail for more general point processes. To address this issue, this work introduces the weighted score matching estimator to point processes. Theoretically, we prove the consistency of our estimator and establish its rate of convergence. Experimental results indicate that our estimator accurately estimates model parameters on synthetic data and yields results consistent with MLE on real data. In contrast, existing score matching estimators fail to perform effectively. Codes are publicly available at \url{https://github.com/KenCao2007/WSM_TPP}. | 翻訳日:2024-11-02 14:40:27 公開日:2024-10-05 |
# 大規模言語モデルのためのニューロンレベルシーケンス編集
Neuron-Level Sequential Editing for Large Language Models ( http://arxiv.org/abs/2410.04045v1 ) ライセンス: Link先を確認 | Houcheng Jiang, Junfeng Fang, Tianyu Zhang, An Zhang, Ruipeng Wang, Tao Liang, Xiang Wang, | (参考訳) 本研究は,大規模言語モデル(LLM)における逐次モデル編集について検討し,LLMの内部知識を複数ラウンドの編集によって継続的に修正する重要なタスクである。
既存のモデル編集方法、特にモデルパラメータを変更するものは、シングルラウンドの編集に重点を置いており、しばしばシーケンシャルなモデル編集において重大な課題に直面している。
これらの課題に対処するために、シーケンシャルなモデル編集をサポートするために、新しいモデル編集手法、すなわち、シーケンシャルなモデル編集をサポートするように調整された、新しいモデル編集手法、すなわち \textbf{N}euron-level \textbf{S}equential \textbf{E}diting (NSE)を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
さらに、活性化値に基づいて複数の階層のニューロンを反復的に選択し、モデル忘れを緩和する。
実験により、NSEは、現在の修正パラメータモデル編集法よりも大幅に優れており、シーケンシャルモデル編集の分野ではかなり進歩していることを示す。
私たちのコードは \url{https://github.com/jianghoucheng/NSE} でリリースされています。
This work explores sequential model editing in large language models (LLMs), a critical task that involves modifying internal knowledge within LLMs continuously through multi-round editing, each incorporating updates or corrections to adjust the model outputs without the need for costly retraining. Existing model editing methods, especially those that alter model parameters, typically focus on single-round editing and often face significant challenges in sequential model editing-most notably issues of model forgetting and failure. To address these challenges, we introduce a new model editing method, namely \textbf{N}euron-level \textbf{S}equential \textbf{E}diting (NSE), tailored for supporting sequential model editing. Specifically, we optimize the target layer's hidden states using the model's original weights to prevent model failure. Furthermore, we iteratively select neurons in multiple layers for editing based on their activation values to mitigate model forgetting. Our empirical experiments demonstrate that NSE significantly outperforms current modifying parameters model editing methods, marking a substantial advancement in the field of sequential model editing. Our code is released on \url{https://github.com/jianghoucheng/NSE}. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# 車両の運転支援のための車線検出システム
Lane Detection System for Driver Assistance in Vehicles ( http://arxiv.org/abs/2410.04046v1 ) ライセンス: Link先を確認 | Kauan Divino Pouso Mariano, Fernanda de Castro Fernandes, Luan Gabriel Silva Oliveira, Lyan Eduardo Sakuno Rodrigues, Matheus Andrade Brandão, | (参考訳) 本研究は,従来の自動運転車の運転支援を目的とした車線検出システムの開発について述べる。
このシステムは従来のコンピュータビジョン技術を用いて実装され、車線や天候の変化といった悪条件下であっても、リアルタイムに運用するための堅牢性と効率性に重点を置いている。
この手法は、カメラキャリブレーション、歪み補正、視点変換、バイナリ画像生成を含む画像処理パイプラインを使用する。
勾配とカラーチャネルに基づくスライディングウインドウ手法とセグメンテーションを用いてレーン検出を行い,様々な道路シナリオにおけるレーンの正確な識別を可能にする。
その結果,車線を効果的に検出・追跡でき,照明条件や路面の異なる環境下では良好に動作できることが示唆された。
しかし、激しい影や鋭い曲線のような極端な状況では課題が特定された。
その制限にもかかわらず、従来のコンピュータビジョンアプローチは、ドライバーアシストシステムや自律ナビゲーションの応用に大きな可能性を示し、将来の改善の余地がある、と結論付けている。
This work presents the development of a lane detection system aimed at assisting the driving of conventional and autonomous vehicles. The system was implemented using traditional computer vision techniques, focusing on robustness and efficiency to operate in real-time, even under adverse conditions such as worn-out lanes and weather variations. The methodology employs an image processing pipeline that includes camera calibration, distortion correction, perspective transformation, and binary image generation. Lane detection is performed using sliding window techniques and segmentation based on gradients and color channels, enabling the precise identification of lanes in various road scenarios. The results indicate that the system can effectively detect and track lanes, performing well under different lighting conditions and road surfaces. However, challenges were identified in extreme situations, such as intense shadows and sharp curves. It is concluded that, despite its limitations, the traditional computer vision approach shows significant potential for application in driver assistance systems and autonomous navigation, with room for future improvements. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# 欠陥を超えて:VTONのエンド・ツー・エンドアーティファクト除去とポス移行のための条件付き塗装法
Beyond Imperfections: A Conditional Inpainting Approach for End-to-End Artifact Removal in VTON and Pose Transfer ( http://arxiv.org/abs/2410.04052v1 ) ライセンス: Link先を確認 | Aref Tabatabaei, Zahra Dehghanian, Maryam Amirmazlaghani, | (参考訳) アーティファクトはしばしば仮想トライオン(VTON)の視覚的品質を低下させ、ユーザエクスペリエンスに影響を与える。
本研究では,そのような歪みを検知・除去し,画像美学を向上する条件付き塗装技術を提案する。
我々の研究は、この問題に対処するエンド・ツー・エンド・エンドのフレームワークを初めて提示し、VTONでアーティファクトの特別なデータセットを開発し、影響を受ける領域をハイライトしたマスクを完備した、転送タスクをポーズさせた。
実験結果から,本手法は人工物を効果的に除去するだけでなく,最終画像の視覚的品質を大幅に向上させ,コンピュータビジョンと画像処理における新たなベンチマークを設定できることがわかった。
Artifacts often degrade the visual quality of virtual try-on (VTON) and pose transfer applications, impacting user experience. This study introduces a novel conditional inpainting technique designed to detect and remove such distortions, improving image aesthetics. Our work is the first to present an end-to-end framework addressing this specific issue, and we developed a specialized dataset of artifacts in VTON and pose transfer tasks, complete with masks highlighting the affected areas. Experimental results show that our method not only effectively removes artifacts but also significantly enhances the visual quality of the final images, setting a new benchmark in computer vision and image processing. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# 大規模言語モデルは社会的バランスを達成できる
Large Language Models can Achieve Social Balance ( http://arxiv.org/abs/2410.04054v1 ) ライセンス: Link先を確認 | Pedro Cisneros-Velarde, | (参考訳) 社会均衡は社会学における概念であり、もし人口の3人1人1人1人が、肯定的または否定的な相互作用の特定の構造を達成すれば、全人口は肯定的な相互作用の1つの派閥に終わるか、2つ以上の敵対的な派閥に分かれることになる。
本稿では,対話型大規模言語モデル(LLM)の一群について考察し,連続的な対話の後,どのように社会的バランスを達成できるかを考察する。
3つの異なるLLMモデルにおいて、社会的バランスは依存していることがわかった。
(i)「関係性」「評価」又は「意見」に基づいて交流が更新されるか否か
2 エージェントが、同調的又は同調的影響に基づいて相互作用を更新するか否か
3) LLM が考慮する同時相互作用の数。
社会的バランスが達成されると、正または負の相互作用の特定の構造はこれら3つの条件に依存し、LLMモデルとサイズによって異なる。
インタラクションの安定性とアップデートの正当化も、モデルによって異なる。
従って、社会バランスは、それぞれのLLMモデルに特有の事前学習およびアライメントによって駆動される。
Social balance is a concept in sociology which states that if every three individuals in a population achieve certain structures of positive or negative interactions, then the whole population ends up in one faction of positive interactions or divided between two or more antagonistic factions. In this paper, we consider a group of interacting large language models (LLMs) and study how, after continuous interactions, they can achieve social balance. Across three different LLM models, we found that social balance depends on (i) whether interactions are updated based on "relationships", "appraisals", or "opinions"; (ii) whether agents update their interactions based on homophily or influence from their peers; and (iii) the number of simultaneous interactions the LLMs consider. When social balance is achieved, its particular structure of positive or negative interactions depends on these three conditions and are different across LLM models and sizes. The stability of interactions and the justification for their update also vary across models. Thus, social balance is driven by the pre-training and alignment particular to each LLM model. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# 自己補正はリファインメント以上のもの:ビジュアルおよび言語推論タスクのための学習フレームワーク
Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks ( http://arxiv.org/abs/2410.04055v1 ) ライセンス: Link先を確認 | Jiayi He, Hehai Lin, Qingyun Wang, Yi Fung, Heng Ji, | (参考訳) VLM(Vision-Language Models)は、視覚的および言語推論タスクにおいて顕著な能力を示したが、それは必ず欠陥のある応答を生成する。
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
従来の研究は主にLarge Language Models (LLMs) に集中していたが、VLMの自己補正能力、特に視覚情報と言語情報については、ほとんど検討されていない。
本研究では,VLMの推論および微調整段階における自己補正能力について検討した。
本稿では,VLM が外部からのフィードバックに頼ることなく,直接選好最適化 (DPO) を通じて自己生成した自己補正データから学習できる自己補正学習 (Self-Correction Learning, SCL) 手法を提案する。
具体的には,VLMの2ターン自己補正によって得られた初期応答と精製応答の正当性に基づいて,好ましくないサンプルを抽出する。
実験の結果,VLMは反復推論において,微調整や外部からのフィードバックを伴わずに効果的に自己補正に苦慮するが,自己生成した自己補正データを好ましくも好ましくないサンプルに分類した場合に,好みの微調整により過去の誤りを回避できることがわかった。
この研究は、自己補正は単なる洗練プロセスではなく、追加のトレーニングを通じてモデルの推論能力を高め、さらなる洗練を伴わずに、高品質な応答を直接生成できることを強調している。
While Vision-Language Models (VLMs) have shown remarkable abilities in visual and language reasoning tasks, they invariably generate flawed responses. Self-correction that instructs models to refine their outputs presents a promising solution to this issue. Previous studies have mainly concentrated on Large Language Models (LLMs), while the self-correction abilities of VLMs, particularly concerning both visual and linguistic information, remain largely unexamined. This study investigates the self-correction capabilities of VLMs during both inference and fine-tuning stages. We introduce a Self-Correction Learning (SCL) approach that enables VLMs to learn from their self-generated self-correction data through Direct Preference Optimization (DPO) without relying on external feedback, facilitating self-improvement. Specifically, we collect preferred and disfavored samples based on the correctness of initial and refined responses, which are obtained by two-turn self-correction with VLMs during the inference stage. Experimental results demonstrate that although VLMs struggle to self-correct effectively during iterative inference without additional fine-tuning and external feedback, they can enhance their performance and avoid previous mistakes through preference fine-tuning when their self-generated self-correction data are categorized into preferred and disfavored samples. This study emphasizes that self-correction is not merely a refinement process; rather, it should enhance the reasoning abilities of models through additional training, enabling them to generate high-quality responses directly without further refinement. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# RetCompletion:Retentive Networkを用いた高速推論画像補完
RetCompletion:High-Speed Inference Image Completion with Retentive Network ( http://arxiv.org/abs/2410.04056v1 ) ライセンス: Link先を確認 | Yueyang Cang, Pingge Hu, Xiaoteng Zhang, Xingtong Wang, Yuhang Liu, | (参考訳) 時間コストは、高品質な多元画像補完を実現する上で大きな課題である。
近年,自然言語処理におけるRetentive Network (RetNet) は,低コストな推論機能を備えた新しいアプローチを提供している。
そこで我々はRetNetをコンピュータビジョンにおける多元的画像補完タスクに適用した。
RetCompletionは2段階のフレームワークです。
まず,画像からコンテキスト情報を統合する双方向シーケンス情報融合モデルBi-RetNetを紹介する。
推論中に一方向の画素単位の更新戦略を用いて、一貫した画像構造を復元し、高い再構成品質と高速な推論速度を実現する。
第2段階では,CNNを用いて低分解能アップサンプリングを行い,テクスチャの詳細を向上する。
ImageNetとCelebA-HQの実験では、推論速度がICTより10$\times$、RePaintより15$\times$速いことが示されています。
提案したRetCompletionは推論速度を大幅に改善し、特にマスクが画像の広い領域をカバーする場合、高い性能を提供する。
Time cost is a major challenge in achieving high-quality pluralistic image completion. Recently, the Retentive Network (RetNet) in natural language processing offers a novel approach to this problem with its low-cost inference capabilities. Inspired by this, we apply RetNet to the pluralistic image completion task in computer vision. We present RetCompletion, a two-stage framework. In the first stage, we introduce Bi-RetNet, a bidirectional sequence information fusion model that integrates contextual information from images. During inference, we employ a unidirectional pixel-wise update strategy to restore consistent image structures, achieving both high reconstruction quality and fast inference speed. In the second stage, we use a CNN for low-resolution upsampling to enhance texture details. Experiments on ImageNet and CelebA-HQ demonstrate that our inference speed is 10$\times$ faster than ICT and 15$\times$ faster than RePaint. The proposed RetCompletion significantly improves inference speed and delivers strong performance, especially when masks cover large areas of the image. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# pFedGame -- 動的トポロジにおけるゲーム理論を用いた分散フェデレーション学習
pFedGame -- Decentralized Federated Learning using Game Theory in Dynamic Topology ( http://arxiv.org/abs/2410.04058v1 ) ライセンス: Link先を確認 | Monik Raj Behera, Suchetana Chakraborty, | (参考訳) 従来型のフェデレーション学習フレームワークは、中央集約サーバのパフォーマンスボトルネック、データバイアス、モデル収束性の低さ、モデル中毒攻撃への曝露、集中インフラへの信頼の制限など、いくつかの課題に悩まされている。
本稿では,pFedGameというゲーム理論に基づく新しい手法を,時間的動的ネットワークに適した分散型フェデレーション学習に提案する。
提案アルゴリズムは集約のための集中型サーバを使わずに動作し,フェデレート学習参加者間の時間的動的トポロジに対する勾配の消失と収束性の低下という問題を取り入れた。
ソリューションは、すべての参加者に対して、すべてのフェデレートされた学習ラウンドで、2つのシーケンシャルなステップで構成されます。
まず、連合学習におけるコラボレーションに適したピアを選択する。
第2に、最適なフェデレート学習集約戦略を適用して、収束する2プレーヤ定数和協調ゲームを実行する。
分散化フェデレーション学習における従来の手法と比較して,pFedGameの性能を評価する実験により,異種データに対して70%以上の精度で有望な結果が得られた。
Conventional federated learning frameworks suffer from several challenges including performance bottlenecks at the central aggregation server, data bias, poor model convergence, and exposure to model poisoning attacks, and limited trust in the centralized infrastructure. In the current paper, a novel game theory-based approach called pFedGame is proposed for decentralized federated learning, best suitable for temporally dynamic networks. The proposed algorithm works without any centralized server for aggregation and incorporates the problem of vanishing gradients and poor convergence over temporally dynamic topology among federated learning participants. The solution comprises two sequential steps in every federated learning round, for every participant. First, it selects suitable peers for collaboration in federated learning. Secondly, it executes a two-player constant sum cooperative game to reach convergence by applying an optimal federated learning aggregation strategy. Experiments performed to assess the performance of pFedGame in comparison to existing methods in decentralized federated learning have shown promising results with accuracy higher than 70% for heterogeneous data. | 翻訳日:2024-11-02 14:30:41 公開日:2024-10-05 |
# 電力制御シビル攻撃に対するIoV無線センサネットワークのセキュリティ向上のためのユニークなIDベースの信頼スキーム
Unique ID based Trust Scheme for Improved IoV Wireless Sensor Network Security Against Power Controlled Sybil Attacks ( http://arxiv.org/abs/2410.04063v1 ) ライセンス: Link先を確認 | Jae-Dong Kim, Dabin Kim, Minseok Ko, Jong-Moon Chung, | (参考訳) 無線センサネットワーク(WSN)は、車両間通信(V2X)をサポートするために車両ネットワークで広く利用されている。
車両ネットワークにおける無線センサは、様々な環境要因や車両の動きの検知と監視をサポートし、交通管理、道路安全、交通効率の向上に役立つ。
しかし、WSNは分散した性質とリソース制限のあるモジュールのため、セキュリティ上の問題に直面します。
Sybil攻撃では、攻撃者は複数の偽のIDを作成し、ネットワーク操作(例えばDoS)を妨害する。
近年,受信信号強度インジケータ(RSSI)プロファイリング方式が提案されている。
しかし、この新たなRSSIベースのロバスト検出スキームでさえ、Sybil攻撃者が端末アドレスに加えて、意図的に無線送信電力を操作しているときに脆弱であることが判明した。
本稿では,この装置の物理的に不変なユニークな識別子と経路経路信頼度推定を用いて,パワー制御型Sybil攻撃を回避する一意な識別に基づく信頼経路ルーティング方式(UITrust)を提案する。
Wireless sensor networks (WSN) are widely used in vehicular networks to support Vehicle-to-Everything (V2X) communications. Wireless sensors in vehicular networks support sensing and monitoring of various environmental factors and vehicle movement, which can help to enhance traffic management, road safety, and transportation efficiency. However, WSNs face security challenges due to their distributed nature and resource limited modules. In Sybil attacks, attackers create multiple fake identities to disrupt network operations (e.g., denial-of-service (DoS)), which is one of the major security concerns in WSNs. Defensive techniques have been proposed, which recently include a received signal strength indicator (RSSI) profiling scheme that improves the performance and is not affected by internal forgeable information. However, even this new RSSI based robust detection scheme was found to be vulnerable when Sybil attackers are mobile or intentionally manipulate their radio transmission power in addition to their device address. In this paper, a unique identification based trust path routing scheme (UITrust) is proposed, which uses the device's physically invariable unique identifiers and routing path trust level estimations to avoid power-controlled Sybil attacks, where the simulation results show the proposed scheme can provide a significant improvement compared to existing schemes. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# Text2Chart31: 自動フィードバックによるチャート生成のためのインストラクションチューニング
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback ( http://arxiv.org/abs/2410.04064v1 ) ライセンス: Link先を確認 | Fatemeh Pesaran Zadeh, Juyeon Kim, Jin-Hwa Kim, Gunhee Kim, | (参考訳) 大規模言語モデル (LLM) は様々な言語タスク、特に命令チューニング手法を通じて、強力な能力を示してきた。
しかし、LLMはチャートやプロットを通して複雑な実世界のデータを視覚化する際の課題に直面している。
まず、既存のデータセットが3D、ボリューム、グリッドチャートなど、完全なチャートタイプをカバーすることはめったにない。
第二に、教師付き微調整手法は、テキスト、コード、フィギュアを含むリッチデータセット内の複雑な関係を完全に活用していない。
これらの課題に対処するために、階層パイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
さらに,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
実験により,本手法によりモデル性能が大幅に向上し,より小規模なモデルで大規模なオープンソースモデルより優れ,データ可視化タスクにおける最先端のプロプライエタリモデルに匹敵する結果が得られた。
コードとデータセットはhttps://github.com/fatemehpesaran310/Text2Chart31で公開しています。
Large language models (LLMs) have demonstrated strong capabilities across various language tasks, notably through instruction-tuning methods. However, LLMs face challenges in visualizing complex, real-world data through charts and plots. Firstly, existing datasets rarely cover a full range of chart types, such as 3D, volumetric, and gridded charts. Secondly, supervised fine-tuning methods do not fully leverage the intricate relationships within rich datasets, including text, code, and figures. To address these challenges, we propose a hierarchical pipeline and a new dataset for chart generation. Our dataset, Text2Chart31, includes 31 unique plot types referring to the Matplotlib library, with 11.1K tuples of descriptions, code, data tables, and plots. Moreover, we introduce a reinforcement learning-based instruction tuning technique for chart generation tasks without requiring human feedback. Our experiments show that this approach significantly enhances the model performance, enabling smaller models to outperform larger open-source models and be comparable to state-of-the-art proprietary models in data visualization tasks. We make the code and dataset available at https://github.com/fatemehpesaran310/Text2Chart31. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# サブラジアントエンタングルメントのためのプラズモニックナノキャビティのモデリング
Taming plasmonic nanocavities for subradiant entanglement ( http://arxiv.org/abs/2410.04067v1 ) ライセンス: Link先を確認 | Angus Crookes, Ben Yuen, Angela Demetriadou, | (参考訳) 量子ナノプラズモンの最近の急速な進歩は、室温で量子現象にアクセスする可能性をもたらす。
それにもかかわらず、絡み合った状態はまだ実現されておらず、依然として顕著な課題である。
本研究では, 本質的にマルチモードであるプラズモニックナノキャビティにおいて, 絡み合いが出現することを示すとともに, 絡み合いが持続するために必要な条件を示す。
一般に、これらの条件は異なるパリティの複数のプラズモンモードとの結合によって破られる。
この課題は, 単一モードへの高選択的結合をサポートする新しいナノキャビティ設計により解決し, ナノプラズモニクスにおけるサブラジアント絡みの堅牢な生成を可能にする。
量子通信, センシング, 高速な量子メモリへの応用のために, 環境条件下での単純なプラズモニック・セットアップを活用するためのエキサイティングな展望が開かれている。
Recent rapid advances in quantum nanoplasmonics offer the potential for accessing quantum phenomena at room temperature. Despite this, entangled states have not yet been realised, and remain an outstanding challenge. In this work, we demonstrate how entanglement emerges in plasmonic nanocavities, which are inherently multi-mode, and demonstrate the conditions necessary for entanglement to persist. We find that, in general, these conditions are broken due to coupling with multiple plasmonic modes of different parity. We address this challenge with a new nanocavity design that supports high selective coupling to a single mode, enabling the robust generation of subradiant entanglement in nanoplasmonics. Our results open exciting prospects for leveraging simple plasmonic setups in ambient conditions for applications in quantum communication, sensing and rapid quantum memories. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# ECon:エビデンス・コンフリクトの検出と解決について
ECon: On the Detection and Resolution of Evidence Conflicts ( http://arxiv.org/abs/2410.04068v1 ) ライセンス: Link先を確認 | Cheng Jiayang, Chunkit Chan, Qianqian Zhuang, Lin Qiu, Tianhang Zhang, Tengxiao Liu, Yangqiu Song, Yue Zhang, Pengfei Liu, Zheng Zhang, | (参考訳) 大規模言語モデル(LLM)の台頭は、意思決定システムにおける情報の質に大きな影響を与え、AI生成コンテンツが普及し、誤った情報を検出し、矛盾する情報を管理することの難しさにつながった。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
我々は、これらの競合(RQ1)に基づいて、自然言語推論(NLI)モデル、事実整合(FC)モデル、LLMなどの競合検出手法を評価し、LLMの競合解決挙動(RQ2)を分析する。
その結果,(1)NLIモデルとLSMモデルでは解答競合の検出精度が高く,(2)低リコールモデルでは低リコールモデルが,(2)NLIモデルとLSMモデルは解答競合に苦しむ一方で,(3)GPT-4のような強いモデルでは、特にニュアンスドコンフリクトが頑健であることがわかった。
紛争解決のために、LLMは、正当化せずに矛盾する証拠の1つを好んでおり、もし彼らが事前の信念を持っているなら、内部知識に依存している。
The rise of large language models (LLMs) has significantly influenced the quality of information in decision-making systems, leading to the prevalence of AI-generated content and challenges in detecting misinformation and managing conflicting information, or "inter-evidence conflicts." This study introduces a method for generating diverse, validated evidence conflicts to simulate real-world misinformation scenarios. We evaluate conflict detection methods, including Natural Language Inference (NLI) models, factual consistency (FC) models, and LLMs, on these conflicts (RQ1) and analyze LLMs' conflict resolution behaviors (RQ2). Our key findings include: (1) NLI and LLM models exhibit high precision in detecting answer conflicts, though weaker models suffer from low recall; (2) FC models struggle with lexically similar answer conflicts, while NLI and LLM models handle these better; and (3) stronger models like GPT-4 show robust performance, especially with nuanced conflicts. For conflict resolution, LLMs often favor one piece of conflicting evidence without justification and rely on internal knowledge if they have prior beliefs. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# シーンスケッチのためのマルチラウンド領域ベース最適化
Multi-Round Region-Based Optimization for Scene Sketching ( http://arxiv.org/abs/2410.04072v1 ) ライセンス: Link先を確認 | Yiqi Liang, Ying Liu, Dandan Long, Ruihui Li, | (参考訳) シーンスケッチ(Scene sketching)とは、シーンを単純化された抽象的な表現に変換し、元のシーンの本質的な要素と構成をキャプチャすることである。
シーンのセマンティックな理解と、シーン内の異なる領域の考慮が必要である。
前景、背景要素、空間分割など、様々な領域に多様な視覚情報を含む場合が多いため、これらの異なる領域を扱うのに特有の困難が生じる。
本稿では,スケッチをベジエ曲線の集合として定義する。
複数のラウンドで入力シーンの異なる領域を最適化する。
最適化の各ラウンドでは、次のリージョンからサンプリングされたストロークを、前回の最適化ラウンドで生成されたスケッチにシームレスに統合することができる。
本稿では,シーンの整合性と最適化の収束性を確保するために,追加のストローク初期化手法を提案する。
新たなCLIPに基づくセマンティック損失とVGGに基づく特徴損失を多ラウンド最適化のガイドに利用した。
生成したスケッチの品質と量に関する大規模な実験結果から,本手法の有効性が確認された。
Scene sketching is to convert a scene into a simplified, abstract representation that captures the essential elements and composition of the original scene. It requires semantic understanding of the scene and consideration of different regions within the scene. Since scenes often contain diverse visual information across various regions, such as foreground objects, background elements, and spatial divisions, dealing with these different regions poses unique difficulties. In this paper, we define a sketch as some sets of Bezier curves. We optimize the different regions of input scene in multiple rounds. In each round of optimization, strokes sampled from the next region can seamlessly be integrated into the sketch generated in the previous round of optimization. We propose additional stroke initialization method to ensure the integrity of the scene and the convergence of optimization. A novel CLIP-Based Semantic loss and a VGG-Based Feature loss are utilized to guide our multi-round optimization. Extensive experimental results on the quality and quantity of the generated sketches confirm the effectiveness of our method. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# ハッシュによる言語モデルからの構文抽出について
On Eliciting Syntax from Language Models via Hashing ( http://arxiv.org/abs/2410.04074v1 ) ライセンス: Link先を確認 | Yiran Wang, Masao Utiyama, | (参考訳) 非教師なし構文解析は文法帰納法としても知られ、生のテキストから構文構造を推論することを目的としている。
最近、バイナリ表現は、語彙レベルと構文レベルの両方で顕著な情報保存機能を示した。
本稿では,モデル内の暗黙的に誘導される文法にのみ依存して,原文から解析木を推定する能力を活用する可能性について検討する。
これを実現するために、ビットレベルCKYをゼロ階から1階にアップグレードし、辞書と構文を統一されたバイナリ表現空間にエンコードし、コントラスト的なハッシュフレームワークの下で教師なしから教師なしへのトレーニングを切り替え、より強固でバランスの取れたアライメント信号を強制する新たなロス関数を導入する。
そこで,本手法は,事前学習した言語モデルから高品質な構文解析木を低コストで取得する上で,効率的かつ効率的であると主張している。
Unsupervised parsing, also known as grammar induction, aims to infer syntactic structure from raw text. Recently, binary representation has exhibited remarkable information-preserving capabilities at both lexicon and syntax levels. In this paper, we explore the possibility of leveraging this capability to deduce parsing trees from raw text, relying solely on the implicitly induced grammars within models. To achieve this, we upgrade the bit-level CKY from zero-order to first-order to encode the lexicon and syntax in a unified binary representation space, switch training from supervised to unsupervised under the contrastive hashing framework, and introduce a novel loss function to impose stronger yet balanced alignment signals. Our model shows competitive performance on various datasets, therefore, we claim that our method is effective and efficient enough to acquire high-quality parsing trees from pre-trained language models at a low cost. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# PsFuture: 擬似未来型ゼロショット適応型機械翻訳
PsFuture: A Pseudo-Future-based Zero-Shot Adaptive Policy for Simultaneous Machine Translation ( http://arxiv.org/abs/2410.04075v1 ) ライセンス: Link先を確認 | Libo Zhao, Jing Li, Ziqian Zeng, | (参考訳) 同時機械翻訳(SiMT)では、ストリーミングソーストークンが使用されるため、ターゲットトークンをリアルタイムで生成する必要がある。
SiMTの従来のアプローチでは、適応的な読み取り/書き込みポリシーを訓練するために高度なアーキテクチャと広範なパラメータ設定が必要であり、それによってかなりの計算能力とメモリが要求される。
PsFutureは、SiMTのための最初のゼロショット適応型リード/ライトポリシーであり、追加のトレーニングを必要とせずに、翻訳モデルで読み取り/ライト動作を独立に決定できる。
さらに, オフラインモデルに固有の双方向アテンション機構の利点を生かして, SiMT アプリケーションのオフライン翻訳モデルを調整するための新しいトレーニング戦略である Prefix-to-Full (P2F) を導入する。
複数のベンチマークでの実験では、ゼロショットポリシが強いベースラインと同等のパフォーマンスを実現し、P2Fメソッドがさらなるパフォーマンス向上を実現し、翻訳品質とレイテンシのトレードオフを際立たせることが示されています。
Simultaneous Machine Translation (SiMT) requires target tokens to be generated in real-time as streaming source tokens are consumed. Traditional approaches to SiMT typically require sophisticated architectures and extensive parameter configurations for training adaptive read/write policies, which in turn demand considerable computational power and memory. We propose PsFuture, the first zero-shot adaptive read/write policy for SiMT, enabling the translation model to independently determine read/write actions without the necessity for additional training. Furthermore, we introduce a novel training strategy, Prefix-to-Full (P2F), specifically tailored to adjust offline translation models for SiMT applications, exploiting the advantages of the bidirectional attention mechanism inherent in offline models. Experiments across multiple benchmarks demonstrate that our zero-shot policy attains performance on par with strong baselines and the P2F method can further enhance performance, achieving an outstanding trade-off between translation quality and latency. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# 未知のコンテキスト分布を持つクロスラーニングコンテキスト帯域に対する高確率境界
High Probability Bound for Cross-Learning Contextual Bandits with Unknown Context Distributions ( http://arxiv.org/abs/2410.04080v1 ) ライセンス: Link先を確認 | Ruiyuan Huang, Zengfeng Huang, | (参考訳) オンライン入札や睡眠バンドイットの応用により、学習者が現在のラウンドのコンテキストだけでなく、あらゆる可能なコンテキストにおける行動に関連した損失を観察するクロスラーニングによるコンテキストバンドイットの問題を検討する。
我々の焦点は、損失が逆向きに選択され、特定の分布からコンテキストがサンプリングされるような設定である。
この問題を最初に研究したのは Balseiro et al (2019) で、彼は文脈分布が事前に知られているという仮定の下で、ほぼ最適に後悔するアルゴリズムを提案した。
しかし、この仮定はしばしば非現実的である。
この問題に対処するため、Schneider と Zimmert (2023) は先頃、ほぼ最適に期待された後悔を実現する新しいアルゴリズムを提案した。
期待された後悔は、高い確率境界よりも著しく弱いことが知られている。
本稿では,そのアルゴリズムの詳細な解析を行い,確率の高いほぼ最適の後悔を実際に達成できることを実証する。
シュナイダー (Schneider) とジマート (Zimmert) (2023) による最初の分析では、自然界にのみ到達している。
分析では、いくつかの新しい知見を紹介します。
具体的には,従来の分析では見過ごされなかった異なるエポック間の弱い依存関係構造を広範囲に利用した。
さらに、標準的なマーチンゲール不等式は直接適用されないので、分析を完了するためにマーチンゲール不等式を洗練する。
Motivated by applications in online bidding and sleeping bandits, we examine the problem of contextual bandits with cross learning, where the learner observes the loss associated with the action across all possible contexts, not just the current round's context. Our focus is on a setting where losses are chosen adversarially, and contexts are sampled i.i.d. from a specific distribution. This problem was first studied by Balseiro et al. (2019), who proposed an algorithm that achieves near-optimal regret under the assumption that the context distribution is known in advance. However, this assumption is often unrealistic. To address this issue, Schneider and Zimmert (2023) recently proposed a new algorithm that achieves nearly optimal expected regret. It is well-known that expected regret can be significantly weaker than high-probability bounds. In this paper, we present a novel, in-depth analysis of their algorithm and demonstrate that it actually achieves near-optimal regret with high probability. There are steps in the original analysis by Schneider and Zimmert (2023) that lead only to an expected bound by nature. In our analysis, we introduce several new insights. Specifically, we make extensive use of the weak dependency structure between different epochs, which was overlooked in previous analyses. Additionally, standard martingale inequalities are not directly applicable, so we refine martingale inequalities to complete our analysis. | 翻訳日:2024-11-02 14:20:57 公開日:2024-10-05 |
# $ε$-VAE: ビジュアルデコードとしてのデノベーション
$ε$-VAE: Denoising as Visual Decoding ( http://arxiv.org/abs/2410.04081v1 ) ライセンス: Link先を確認 | Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu, | (参考訳) 生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
高次元視覚データの場合、冗長性を低減し、高品質な生成のための重要な特徴を強調する。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
本研究では, 復号化をデコードとして提案し, 単一ステップ再構成から反復的洗練へ移行することで, 新たな視点を提供する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に洗練して元のイメージを復元し、エンコーダが提供する潜伏者によって誘導される。
再現性 (rFID) と生成品質 (FID) を両立させて評価し, 最先端の自己符号化手法と比較した。
この作業は、圧縮と生成を改善するための反復生成と自動エンコーディングの統合に関する、新たな洞察を提供することを期待しています。
In generative modeling, tokenization simplifies complex data into compact, structured representations, creating a more efficient, learnable space. For high-dimensional visual data, it reduces redundancy and emphasizes key features for high-quality generation. Current visual tokenization methods rely on a traditional autoencoder framework, where the encoder compresses data into latent representations, and the decoder reconstructs the original input. In this work, we offer a new perspective by proposing denoising as decoding, shifting from single-step reconstruction to iterative refinement. Specifically, we replace the decoder with a diffusion process that iteratively refines noise to recover the original image, guided by the latents provided by the encoder. We evaluate our approach by assessing both reconstruction (rFID) and generation quality (FID), comparing it to state-of-the-art autoencoding approach. We hope this work offers new insights into integrating iterative generation and autoencoding for improved compression and generation. | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# 不斉損失の緩和と医用画像の長期的不均衡を克服するためのペイド近似
Taming the Tail: Leveraging Asymmetric Loss and Pade Approximation to Overcome Medical Image Long-Tailed Class Imbalance ( http://arxiv.org/abs/2410.04084v1 ) ライセンス: Link先を確認 | Pankhi Kashyap, Pavni Tandon, Sunny Gupta, Abhishek Tiwari, Ritwik Kulkarni, Kshitij Sharad Jadhav, | (参考訳) 医療における長期の問題は、異なる医療条件の有病率の変動と表現によるデータの不均衡から生じ、正確で信頼性の高い分類法の必要性が保証される。
クロスエントロピーやバイナリクロスエントロピーのような伝統的な損失関数は、高表現のクラスと低表現のクラスの間の不均衡に対処できないため、しばしば不十分である。
本研究では,Pade近似に基づく新しい多項式損失関数を提案する。
このアプローチは、非対称なサンプリング手法を取り入れて、表現されていないクラスをよりよく分類する。
利用可能な3つの医療データセットと独自の医療データセットについて広範な評価を行った。
提案した損失関数の実装は,公開リポジトリでオープンソースとして公開されています。
Long-tailed problems in healthcare emerge from data imbalance due to variability in the prevalence and representation of different medical conditions, warranting the requirement of precise and dependable classification methods. Traditional loss functions such as cross-entropy and binary cross-entropy are often inadequate due to their inability to address the imbalances between the classes with high representation and the classes with low representation found in medical image datasets. We introduce a novel polynomial loss function based on Pade approximation, designed specifically to overcome the challenges associated with long-tailed classification. This approach incorporates asymmetric sampling techniques to better classify under-represented classes. We conducted extensive evaluations on three publicly available medical datasets and a proprietary medical dataset. Our implementation of the proposed loss function is open-sourced in the public repository:https://github.com/ipankhi/ALPA. | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# GlobeSumm: マルチランガル,クロスランガル,マルチドキュメントニュース要約の統合を目指すベンチマーク
GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization ( http://arxiv.org/abs/2410.04087v1 ) ライセンス: Link先を確認 | Yangfan Ye, Xiachong Feng, Xiaocheng Feng, Weitao Ma, Libo Qin, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, | (参考訳) 今日のグローバルな状況におけるニュース要約は、多言語コンテンツの流入と、さまざまなソースからのさまざまな視点に悩まされる可能性がある。
しかしながら、最近の研究では、そのような現実的なシナリオを無視することが多い。
このギャップを埋めるため、我々は多言語、多言語、多文書の要約を新しいタスク、すなわちMCMSに統一し、現実世界の要求をオールインワンでカプセル化することを目指している。
それでも、ベンチマークの欠如は、研究者がこの貴重な問題を適切に研究することを妨げている。
そこで我々は,まず多言語ニュースを多言語で収集し,それらをイベント中心の形式に再構築することで,GLOBESUMMデータセットを慎重に構築した。
さらに,高品質かつ費用対効果の高い参照アノテーションのためのプロトコル誘導プロンプト手法についても紹介する。
MCMSでは、冗長性や省略性の問題に加えて、ニュースレポート間の対立の課題も強調し、GLOBESUMMの複雑さをさらに高めている。
広範囲な実験分析を通じて、データセットの品質を検証し、タスク固有の課題を解明する。
GLOBESUMMは,その難易度から多言語コミュニティやLLMの評価に大きく貢献すると考えられる。
News summarization in today's global scene can be daunting with its flood of multilingual content and varied viewpoints from different sources. However, current studies often neglect such real-world scenarios as they tend to focus solely on either single-language or single-document tasks. To bridge this gap, we aim to unify Multi-lingual, Cross-lingual and Multi-document Summarization into a novel task, i.e., MCMS, which encapsulates the real-world requirements all-in-one. Nevertheless, the lack of a benchmark inhibits researchers from adequately studying this invaluable problem. To tackle this, we have meticulously constructed the GLOBESUMM dataset by first collecting a wealth of multilingual news reports and restructuring them into event-centric format. Additionally, we introduce the method of protocol-guided prompting for high-quality and cost-effective reference annotation. In MCMS, we also highlight the challenge of conflicts between news reports, in addition to the issues of redundancies and omissions, further enhancing the complexity of GLOBESUMM. Through extensive experimental analysis, we validate the quality of our dataset and elucidate the inherent challenges of the task. We firmly believe that GLOBESUMM, given its challenging nature, will greatly contribute to the multilingual communities and the evaluation of LLMs. | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# 検出変圧器のクロスレゾリューション符号化-復号化
Cross Resolution Encoding-Decoding For Detection Transformers ( http://arxiv.org/abs/2410.04088v1 ) ライセンス: Link先を確認 | Ashish Kumar, Jaesik Park, | (参考訳) 検出変換器 (DETR) は有名なオブジェクト検出パイプラインであるが, DETR を用いた計算効率のよいマルチスケール検出は依然として困難である。
本稿では,DTRが低分解能検出速度を有しながら高分解能検出の精度を実現することができるクロス・リゾリューション・エンコーディング・デコーディング(CRED)機構を提案する。
CREDはCRAM(Cross Resolution Attention Module)とOSMA(One Step Multiscale Attention)という2つのモジュールに基づいている。
CRAMは、低解像度エンコーダ出力の知識を高解像度の機能に転送するように設計されている。
OSMAは、単一ステップでマルチスケール機能を融合し、マルチスケール情報に富んだ所望の解像度の特徴マップを生成するように設計されている。
顕著なDETR法で使用される場合、CREDはFLOPの約50%の精度で高解像度のDETRと同様の精度を提供する。
具体的には、CRED(CRED-DETRと呼ぶ)で使用するDN-DETRは76%高速化され、MS-COCOベンチマークで202GのFLOPを持つ高解像度のFLOPよりも約50%削減された。
コミュニティが利用するための事前訓練されたCRED-DETRをリリースする予定です。
コード:https://github.com/ashishkumar822/CRED-DETR
Detection Transformers (DETR) are renowned object detection pipelines, however computationally efficient multiscale detection using DETR is still challenging. In this paper, we propose a Cross-Resolution Encoding-Decoding (CRED) mechanism that allows DETR to achieve the accuracy of high-resolution detection while having the speed of low-resolution detection. CRED is based on two modules; Cross Resolution Attention Module (CRAM) and One Step Multiscale Attention (OSMA). CRAM is designed to transfer the knowledge of low-resolution encoder output to a high-resolution feature. While OSMA is designed to fuse multiscale features in a single step and produce a feature map of a desired resolution enriched with multiscale information. When used in prominent DETR methods, CRED delivers accuracy similar to the high-resolution DETR counterpart in roughly 50% fewer FLOPs. Specifically, state-of-the-art DN-DETR, when used with CRED (calling CRED-DETR), becomes 76% faster, with ~50% reduced FLOPs than its high-resolution counterpart with 202 G FLOPs on MS-COCO benchmark. We plan to release pretrained CRED-DETRs for use by the community. Code: https://github.com/ashishkumar822/CRED-DETR | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# カラムステージによる簡潔なConvNetの設計
Designing Concise ConvNets with Columnar Stages ( http://arxiv.org/abs/2410.04089v1 ) ライセンス: Link先を確認 | Ashish Kumar, Jaesik Park, | (参考訳) ビジョントランスフォーマーの時代、最近のVanillaNetの成功は、シンプルで簡潔な畳み込みニューラルネットワーク(ConvNets)の巨大な可能性を示している。
このようなモデルが主にランタイムに焦点を当てている場合、他の側面(例えば、FLOP、パラメータなど)に同時にフォーカスして、それらのユーティリティを強化することも重要です。
この目的のために,CoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、そして、リソース制約された展開に適した注意のない操作を持つ。
CoSNetの重要な特徴は、入力レプリケーションによって供給されるカーネルが少ない並列畳み込みをデプロイし、これらの畳み込みの列の積み重ねを使用し、1x1畳み込みレイヤの使用を最小限にすることである。
包括的評価の結果,CoSNet はリソース制約シナリオ下で多くの有名な ConvNet や Transformer の設計に匹敵していることがわかった。
コード:https://github.com/ashishkumar822/CoSNet
In the era of vision Transformers, the recent success of VanillaNet shows the huge potential of simple and concise convolutional neural networks (ConvNets). Where such models mainly focus on runtime, it is also crucial to simultaneously focus on other aspects, e.g., FLOPs, parameters, etc, to strengthen their utility further. To this end, we introduce a refreshing ConvNet macro design called Columnar Stage Network (CoSNet). CoSNet has a systematically developed simple and concise structure, smaller depth, low parameter count, low FLOPs, and attention-less operations, well suited for resource-constrained deployment. The key novelty of CoSNet is deploying parallel convolutions with fewer kernels fed by input replication, using columnar stacking of these convolutions, and minimizing the use of 1x1 convolution layers. Our comprehensive evaluations show that CoSNet rivals many renowned ConvNets and Transformer designs under resource-constrained scenarios. Code: https://github.com/ashishkumar822/CoSNet | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# 低消費電力コンピューティングデバイスのための高速ステレオビジュアルSLAM
High-Speed Stereo Visual SLAM for Low-Powered Computing Devices ( http://arxiv.org/abs/2410.04090v1 ) ライセンス: Link先を確認 | Ashish Kumar, Jaesik Park, Laxmidhar Behera, | (参考訳) 本稿では,Jetson-SLAM と呼ばれる,GPU で高速化された Stereo Visual SLAM の設計を提案する。
NVIDIAの低消費電力10W Jetson-NX組み込みコンピュータで60FPS以上、デスクトップグレードの200W GPUで200FPS以上、ステレオ構成でもマルチスケール設定でもフレーム処理速度を示す。
私たちの貢献は3倍です。
i) FAST検出のコーナーとして多くの非コーナ点のタグ付けを防止し,SLAM精度を向上する境界整流技術。
(II)GPUデバイスを利用して冗長なものを高速に抑制しながらロバストな特徴を生み出す新しいピラミッド・カリング・アグリゲーション(PyCA)技術。
PyCAは、GPU用のMLPT(Multi-Location Per Thread culling Strategy)とTEWA(Thread-Efficient Warp-Allocation)スキームを使用して、Jetson-SLAMが組み込みデバイス上で高い精度とスピードを達成する。
(iii)Jetson-SLAMライブラリは、データ共有機構を持つことにより、資源効率を達成する。
KITTI, EuRoC, KAIST-VIOの3つの挑戦的データセットと高度に正確なSLAMバックエンドに関する実験を行った。
We present an accurate and GPU-accelerated Stereo Visual SLAM design called Jetson-SLAM. It exhibits frame-processing rates above 60FPS on NVIDIA's low-powered 10W Jetson-NX embedded computer and above 200FPS on desktop-grade 200W GPUs, even in stereo configuration and in the multiscale setting. Our contributions are threefold: (i) a Bounded Rectification technique to prevent tagging many non-corner points as a corner in FAST detection, improving SLAM accuracy. (ii) A novel Pyramidal Culling and Aggregation (PyCA) technique that yields robust features while suppressing redundant ones at high speeds by harnessing a GPU device. PyCA uses our new Multi-Location Per Thread culling strategy (MLPT) and Thread-Efficient Warp-Allocation (TEWA) scheme for GPU to enable Jetson-SLAM achieving high accuracy and speed on embedded devices. (iii) Jetson-SLAM library achieves resource efficiency by having a data-sharing mechanism. Our experiments on three challenging datasets: KITTI, EuRoC, and KAIST-VIO, and two highly accurate SLAM backends: Full-BA and ICE-BA show that Jetson-SLAM is the fastest available accurate and GPU-accelerated SLAM system (Fig. 1). | 翻訳日:2024-11-02 14:11:13 公開日:2024-10-05 |
# 言語横断的なクエリ・バイ・サンプル・スポンク項検出:トランスフォーマーに基づくアプローチ
Cross-Lingual Query-by-Example Spoken Term Detection: A Transformer-Based Approach ( http://arxiv.org/abs/2410.04091v1 ) ライセンス: Link先を確認 | Allahdadi Fatemeh, Mahdian Toroghi Rahil, Zareian Hassan, | (参考訳) QbE-STD (Query-by-example spoken term detection) は、典型的には、転写されたデータ不足と言語特異性によって制約される。
本稿では,画像処理技術とトランスフォーマーアーキテクチャを活用した,言語に依存しない新しいQbE-STDモデルを提案する。
特徴抽出のためのXLSR-53ネットワークと検出のためのHough変換を用いることで,本モデルは任意の音声ファイル内のユーザ定義音声語を効果的に検索する。
4言語にわたる実験結果は、CNNベースのベースラインよりも大きなパフォーマンス向上(19-54%)を示した。
DTWに比べて処理時間が向上する一方、精度は劣っている。
特に,本モデルでは,ターゲット音声中のクエリ項繰り返しを正確にカウントする利点がある。
Query-by-example spoken term detection (QbE-STD) is typically constrained by transcribed data scarcity and language specificity. This paper introduces a novel, language-agnostic QbE-STD model leveraging image processing techniques and transformer architecture. By employing a pre-trained XLSR-53 network for feature extraction and a Hough transform for detection, our model effectively searches for user-defined spoken terms within any audio file. Experimental results across four languages demonstrate significant performance gains (19-54%) over a CNN-based baseline. While processing time is improved compared to DTW, accuracy remains inferior. Notably, our model offers the advantage of accurately counting query term repetitions within the target audio. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# BloomWise: Bloom's-Taxonomy-Inspired Promptsを用いた大規模言語モデルの問題解決機能向上
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts ( http://arxiv.org/abs/2410.04094v1 ) ライセンス: Link先を確認 | Maria-Eleni Zoumpoulidi, Georgios Paraskevopoulos, Alexandros Potamianos, | (参考訳) LLM(Large Language Models)は、様々なタスクにまたがる継続的な進歩にもかかわらず、数学的な問題や推論タスクのパフォーマンスは依然として限られている。
この制限は、これらの問題の本質的な困難さや、解がしばしば複数のステップから構成される可能性があり、その性質は様々であり、単一のプロンプト技術が全ての必要なステップを実行するのが困難であるという事実に起因している。
この問題を解決するため,ブルームの分類学にインスパイアされた新たなプロンプト技術であるブルームワイズを導入し,簡単なこと,覚えること,高度な認知能力,すなわち正しい解決に到達するまで,その課題にアプローチするよう促すことにより,LSMのパフォーマンスを向上させることを目的とした。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
したがって、我々はLLMに適切な認知プロセスの展開を奨励する。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
また、システム内の各モジュールの強度を解析し、広範囲にわたる改善を提案する。
Despite the continuous progress of Large Language Models (LLMs) across various tasks, their performance on mathematical problems and reasoning tasks remains limited. This limitation can be attributed, among other factors, to the inherent difficulty of these problems and the fact that solutions often consist of multiple steps, potentially of varying nature, making it challenging for a single prompting technique to execute all required steps. To address this, we introduce BloomWise, a new prompting technique, inspired by Bloom's Taxonomy, aiming to improve LLMs' performance in solving such problems by encouraging them to approach the problem starting from simple, i.e., remembering, and progressing to higher cognitive skills, i.e., analyzing, until the correct solution is reached. The decision regarding the need to employ more sophisticated cognitive skills is based on self-evaluation performed by the LLM. Thus, we encourage the LLM to deploy the appropriate cognitive processes. In extensive experiments across 4 popular math reasoning datasets, we have demonstrated the effectiveness of our proposed approach. We also present extensive ablations, analyzing the strengths of each module within our system. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# 量子鍵分布における最小データブロックサイズに対するシャープ有限統計
Sharp finite statistics for minimum data block sizes in quantum key distribution ( http://arxiv.org/abs/2410.04095v1 ) ライセンス: Link先を確認 | Vaisakh Mannalath, Víctor Zapatero, Marcos Curty, | (参考訳) 量子鍵分布(QKD)の性能は、そのセキュリティ証明の有限統計量に大きく依存する。
複数のプロトコルや証明手法では、中央統計タスクはランダムサンプリング問題であり、この課題は、慣例的に、ハイパージオメトリック分布の適切なテール境界を呼び出すことによって解決される。
そこで本研究では,ランダムサンプリングとリプレースなしでのリンクを利用した代替手法を提案する。
その単純さにもかかわらず、特に衛星QKDや他の想定されるQKDアプリケーションにとって重要な、小さなデータブロックサイズの体制において、達成可能な秘密鍵レートを著しく向上させる。
さらに、提案ツールの副産物として、独立ベルヌーイ変数の平均に対してタイトなネイマン構成が導出される。
この種の境界は、デコイ状態のQKDスキームの有限鍵セキュリティ証明に自然に適合し、以前のアプローチと比較して有限統計をより鋭くする。
The performance of quantum key distribution (QKD) heavily depends on the finite statistics of its security proof. For multiple protocols and proof techniques, the central statistical task is a random sampling problem, which is customarily addressed by invoking suitable tail bounds on the hypergeometric distribution. In this work, we introduce an alternative solution that exploits a link between random sampling with and without replacement. Despite its simplicity, it notably boosts the achievable secret key rate, particularly in the regime of small data block sizes critical for satellite QKD and other envisioned QKD applications. Moreover, as a by-product of the proposed tool, tight Neyman constructions are derived for the average of independent Bernoulli variables. Bounds of this kind naturally fit in finite-key security proofs of decoy-state QKD schemes, further sharpening the finite statistics compared to previous approaches. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# Sinc Kolmogorov-Arnoldネットワークと物理インフォームドニューラルネットワークへの応用
Sinc Kolmogorov-Arnold Network and Its Applications on Physics-informed Neural Networks ( http://arxiv.org/abs/2410.04096v1 ) ライセンス: Link先を確認 | Tianchi Yu, Jingwei Qiu, Jiang Yang, Ivan Oseledets, | (参考訳) 本稿では,学習可能なアクティベーション関数を持つニューラルネットワークであるKolmogorov-Arnold Networksのコンテキストにおいて,Sinc補間を用いることを提案する。
多くの異なる関数表現が既に試みられているが、シック補間は滑らかな関数と特異点を持つ関数の両方をうまく表す数値解析で知られているので、実現可能な代替法を提案する。
これは関数近似だけでなく、物理インフォームドニューラルネットワークを用いた偏微分方程式の解にも重要である。
一連の実験を通して、SincKANsは我々が検討したほとんど全ての例においてより良い結果をもたらすことを示した。
In this paper, we propose to use Sinc interpolation in the context of Kolmogorov-Arnold Networks, neural networks with learnable activation functions, which recently gained attention as alternatives to multilayer perceptron. Many different function representations have already been tried, but we show that Sinc interpolation proposes a viable alternative, since it is known in numerical analysis to represent well both smooth functions and functions with singularities. This is important not only for function approximation but also for the solutions of partial differential equations with physics-informed neural networks. Through a series of experiments, we show that SincKANs provide better results in almost all of the examples we have considered. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# fMRIのためのテレビによる深部3次元自己解像
TV-based Deep 3D Self Super-Resolution for fMRI ( http://arxiv.org/abs/2410.04097v1 ) ライセンス: Link先を確認 | Fernando Pérez-Bueno, Hongwei Bran Li, Shahin Nasr, Cesar Caballero-Gaudes, Juan Eugenio Iglesias, | (参考訳) 機能的磁気共鳴イメージング(fMRI)は認知過程に関する貴重な洞察を提供するが、その固有の空間的制限は、脳の微細な機能的構造を詳細に分析する上での課題である。
より具体的には、MRIスキャナとシーケンス仕様は、時間分解能、空間分解能、信号対雑音比、スキャン時間の間のトレードオフを課している。
Deep Learning (DL) Super-Resolution (SR) 法はfMRIの解像度を高めるための有望なソリューションとして登場し、低解像度(LR)画像から高解像度(HR)画像を生成する。
しかし、既存のほとんどのSRアプローチは、訓練基盤真理(GT)HRデータを必要とする、教師付きDL技術に依存している。
本稿では,DLネットワークと解析的アプローチと総変分(TV)正規化を組み合わせた,新たな自己教師型DL SRモデルを提案する。
本手法は,外部GT画像の必要性を排除し,管理型DL技術と機能地図の保存による競合性能を実現する。
While functional Magnetic Resonance Imaging (fMRI) offers valuable insights into cognitive processes, its inherent spatial limitations pose challenges for detailed analysis of the fine-grained functional architecture of the brain. More specifically, MRI scanner and sequence specifications impose a trade-off between temporal resolution, spatial resolution, signal-to-noise ratio, and scan time. Deep Learning (DL) Super-Resolution (SR) methods have emerged as a promising solution to enhance fMRI resolution, generating high-resolution (HR) images from low-resolution (LR) images typically acquired with lower scanning times. However, most existing SR approaches depend on supervised DL techniques, which require training ground truth (GT) HR data, which is often difficult to acquire and simultaneously sets a bound for how far SR can go. In this paper, we introduce a novel self-supervised DL SR model that combines a DL network with an analytical approach and Total Variation (TV) regularization. Our method eliminates the need for external GT images, achieving competitive performance compared to supervised DL techniques and preserving the functional maps. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# OCONモデル:スマートシティにおける音響モニタリングのための分布型教師付き分類のための古くてグリーンな解法
The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities ( http://arxiv.org/abs/2410.04098v1 ) ライセンス: Link先を確認 | Stefano Giacomelli, Marco Giordano, Claudia Rinaldi, | (参考訳) 本稿では、母音音素分類と自動音声認識(ASR)領域における話者認識に着目し、ワンクラス・アプローチとワンクラス・ワン・ネットワークモデルによる教師付き分類タスクの構造化の適用について検討する。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
疑似ニューラルアーキテクチャ探索とハイパーパラメータチューニングの組み合わせを,情報グリッド探索手法を用いて形式化し,現代のほとんどの複雑なアーキテクチャに匹敵する分類精度を実現し,話者認識とエネルギー効率の面を掘り下げる。
その単純さにもかかわらず、我々のモデル提案は、関連する統計的および性能指標によって証明された計算制約付き文脈において、広く適用可能な言語と話者の性別コンテキストを一般化する絶好の機会を持つ。
実験コードはGitHubで公開されています。
This paper explores a structured application of the One-Class approach and the One-Class-One-Network model for supervised classification tasks, focusing on vowel phonemes classification and speakers recognition for the Automatic Speech Recognition (ASR) domain. For our case-study, the ASR model runs on a proprietary sensing and lightning system, exploited to monitor acoustic and air pollution on urban streets. We formalize combinations of pseudo-Neural Architecture Search and Hyper-Parameters Tuning experiments, using an informed grid-search methodology, to achieve classification accuracy comparable to nowadays most complex architectures, delving into the speaker recognition and energy efficiency aspects. Despite its simplicity, our model proposal has a very good chance to generalize the language and speaker genders context for widespread applicability in computational constrained contexts, proved by relevant statistical and performance metrics. Our experiments code is openly accessible on our GitHub. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# スピンスピン結合を用いた2量子ラビモデルに基づく量子スターリング熱エンジン
Quantum Stirling heat engine based on Two-qubit Quantum Rabi Model with Spin-Spin Coupling ( http://arxiv.org/abs/2410.04099v1 ) ライセンス: Link先を確認 | Luxin Xu, Chunfeng Wu, Changliang Ren, | (参考訳) 量子熱エンジン(QHE)の効率向上は基礎研究と量子技術の発展に不可欠であり,スピンスピンカップリングを作用媒体とする2量子量子ラビモデルを用いて量子スターリングサイクルを探索する。
本稿では, 熱機関の効率を最大化するパラメータ最適化手法を提案する。
本システムでは, 温冷間貯水池の温度比を高め, スピンモード結合強度を高めることにより, 効率を向上させることができる。
しかし、スピンスピン結合強度の増大は効率の向上を阻害する。
システムが臨界点に達するにつれて、低温条件下でのQHE効率はカルノット限界となる。
スーパーラジアント相では、温度比が一定となると、冷却貯水池の温度が低下するにつれて、効率はカルノット限界に近づいた。
逆に、低温貯水池の温度が上昇すると、スピンモード結合強度とモード周波数との比が高くなるため、効率が向上する。
スピンスピン結合強度が一定であれば、熱間貯水池温度比の上昇はカルノー効率を達成するために対応するスピンモード結合強度の増加を必要とする。
本研究は,様々な条件下でのQHE性能の理解を深め,QHEの効率を最適化するための作業方法を提供する。
Enhancing the efficiency of quantum heat engines (QHEs) is crucial for advancing fundamental research and quantum technology.We here we explore a quantum Stirling cycle using a twoqubit quantum Rabi model with spin-spin coupling as a working medium. We propose parameter optimization strategies to maximize the efficiency of the heat engine, as there are multiple ways for the effective coupling constant to move toward its critical value. In the normal phase of the system, the efficiency can be improved by increasing the temperature ratio of hot-to-cold reservoirs and enhancing spin-mode coupling strength. However, increasing spin-spin coupling strength inhibits the improvement of the efficiency. As the system goes to its critical point, QHE efficiency under low-temperature conditions tends to the Carnot limit. In the superradiant phase, the efficiency approaches the Carnot limit more closely as the cold reservoir's temperature decreases given a constant temperature ratio. Conversely, when the cold reservoir's temperature rises, the efficiency increases due to a higher ratio of spin-mode coupling strength to mode frequency. If the spinspin coupling strength is constant, increasing the hot-to-cold reservoir temperature ratio requires a corresponding increase in spin-mode coupling strength to achieve the Carnot efficiency. Our work deepens the understanding of QHE performance under various conditions and provides operative methods for optimizing the efficiency of QHE. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# 大規模言語モデルのバージョン更新のための学習速度経路切替学習パラダイム
A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models ( http://arxiv.org/abs/2410.04103v1 ) ライセンス: Link先を確認 | Zhihao Wang, Shiyu Liu, Jianheng Huang, Zheng Wang, Yixuan Liao, Xiaoxin Chen, Junfeng Yao, Jinsong Su, | (参考訳) 新しいデータの継続的な出現により、バージョン更新は、LLM(Large Language Models)にとって必須の要件となっている。
LLMのバージョン更新のためのトレーニングパラダイムには、スクラッチからの事前トレーニング(PTFS)と継続事前トレーニング(CPT)がある。
予備実験では、PTFSはトレーニング前のパフォーマンスが向上し、CPTはトレーニングコストが低下することを示した。
さらに、パフォーマンスとトレーニングコストのギャップは、バージョンアップデートによって徐々に拡大しています。
この現象の根本原因を明らかにするため,CPTの2段階における学習率調整の効果を解析し,初期化チェックポイントの作成と,このチェックポイントに基づく継続事前学習を行う。
LLMのバージョン更新には,第1段階での大きな学習率と第2段階での学習率の崩壊プロセスが不可欠であることがわかった。
そこで本研究では,学習速度パス切替訓練パラダイムを提案する。
我々のパラダイムは,LLMを最大学習率で事前学習する1つの主要なパスと,新たに追加されたトレーニングデータでLLMを更新する複数の分岐パスから構成される。
大規模な実験は、我々のパラダイムの有効性と一般化を実証する。
特に,LLMの4バージョンをトレーニングする場合,本パラダイムはPTFSと比較してトレーニングコストを58%削減すると同時に,事前トレーニング性能も同等に維持する。
Due to the continuous emergence of new data, version updates have become an indispensable requirement for Large Language Models (LLMs). The training paradigms for version updates of LLMs include pre-training from scratch (PTFS) and continual pre-training (CPT). Preliminary experiments demonstrate that PTFS achieves better pre-training performance, while CPT has lower training cost. Moreover, their performance and training cost gaps widen progressively with version updates. To investigate the underlying reasons for this phenomenon, we analyze the effect of learning rate adjustments during the two stages of CPT: preparing an initialization checkpoint and continual pre-training based on this checkpoint. We find that a large learning rate in the first stage and a complete learning rate decay process in the second stage are crucial for version updates of LLMs. Hence, we propose a learning rate path switching training paradigm. Our paradigm comprises one main path, where we pre-train a LLM with the maximal learning rate, and multiple branching paths, each of which corresponds to an update of the LLM with newly-added training data. Extensive experiments demonstrate the effectiveness and generalization of our paradigm. Particularly, when training four versions of LLMs, our paradigm reduces the total training cost to 58% compared to PTFS, while maintaining comparable pre-training performance. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# TUBench:疑わしい質問による信頼度に関する大規模ビジョンランゲージモデルのベンチマーク
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions ( http://arxiv.org/abs/2410.04107v1 ) ライセンス: Link先を確認 | Xingwei He, Qianru Zhang, A-Long Jin, Yuan Yuan, Siu-Ming Yiu, | (参考訳) LVLM(Large Vision-Language Models)は、視覚知覚と言語解釈において顕著な進歩を遂げている。
様々なタスクにまたがる印象的な能力にもかかわらず、LVLMは今でも幻覚の問題に悩まされている。
MMEやPOPEといった従来のベンチマークでは、答え可能な質問を用いて視覚質問回答(VQA)の範囲内でLVLMの幻覚を評価する。
しかし、画像に不足があるため、いくつかの疑問は解決不可能であり、そのような疑問に対するLVLMの性能は未解明のままである。
この研究ギャップを埋めるため,不解な質問を用いてLVLMの信頼性を評価するためのベンチマークであるTUBenchを提案する。
TUBenchは、10つの異なる戦略を使って細心の注意を払って構築される、高品質で疑わしい質問の広範なコレクションで構成されている。
LVLMを徹底的に評価するために、TUBenchの解決不可能な質問は、コードスニペットのスクリーンショット、自然画像、幾何学図、統計テーブルのスクリーンショットの4つの異なる領域の画像に基づいている。
これらの疑問は、LVLMsのコード推論、コモンセンス推論、幾何学的推論、およびテーブルに関する数学的推論の信頼性をテストするのに適したものである。
TUBenchでは,トップパフォーマンスモデルであるGemini-1.5-Proが69.2%,第3ランクモデルであるGPT-4oが66.7%,回答可能な質問が66.7%であった。
TUBenchはhttps://github.com/NLPCode/TUBench.comで入手できる。
Large Vision-Language Models (LVLMs) have achieved remarkable progress on visual perception and linguistic interpretation. Despite their impressive capabilities across various tasks, LVLMs still suffer from the issue of hallucination, which involves generating content that is incorrect or unfaithful to the visual or textual inputs. Traditional benchmarks, such as MME and POPE, evaluate hallucination in LVLMs within the scope of Visual Question Answering (VQA) using answerable questions. However, some questions are unanswerable due to insufficient information in the images, and the performance of LVLMs on such unanswerable questions remains underexplored. To bridge this research gap, we propose TUBench, a benchmark specifically designed to evaluate the reliability of LVLMs using unanswerable questions. TUBench comprises an extensive collection of high-quality, unanswerable questions that are meticulously crafted using ten distinct strategies. To thoroughly evaluate LVLMs, the unanswerable questions in TUBench are based on images from four diverse domains as visual contexts: screenshots of code snippets, natural images, geometry diagrams, and screenshots of statistical tables. These unanswerable questions are tailored to test LVLMs' trustworthiness in code reasoning, commonsense reasoning, geometric reasoning, and mathematical reasoning related to tables, respectively. We conducted a comprehensive quantitative evaluation of 28 leading foundational models on TUBench, with Gemini-1.5-Pro, the top-performing model, achieving an average accuracy of 69.2%, and GPT-4o, the third-ranked model, reaching 66.7% average accuracy, in determining whether questions are answerable. TUBench is available at https://github.com/NLPCode/TUBench. | 翻訳日:2024-11-02 14:11:12 公開日:2024-10-05 |
# 一般用途強化学習のための職業近似型ポリシー勾配アルゴリズムのサンプル複雑性について
On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning ( http://arxiv.org/abs/2410.04108v1 ) ライセンス: Link先を確認 | Anas Barakat, Souradip Chakraborty, Peihong Yu, Pratap Tokekar, Amrit Singh Bedi, | (参考訳) 近年、模倣学習、純粋な探索、安全なRLなど、いくつかの問題を統一する能力によって、一般ユーティリティによる強化学習が注目されている。
しかし、この一般的な問題を統一的に解くための先行研究は、主に表の設定に焦点を当てている。
これは、政策最適化中に占有度を見積もる必要があるため、より大きな状態-作用空間を考える際に制限がある。
本稿では,この問題に対処し,最大推定値(MLE)を用いて関数近似クラス内の占有度を近似する手法を提案する。
そこで我々は,アクターがポリシーパラメータを更新して汎用目的を最大化する単純なポリシー勾配アルゴリズム(PG-OMA)を提案する。
PG-OMAのサンプル複雑性解析により,我々の占有度測定誤差は,状態作用空間のサイズではなく,関数近似クラスの寸法に比例してしかスケールしないことを示した。
提案したPG-OMAアルゴリズムは, それぞれ一階定常性と大域最適性性能バウンダリを確立する。
提案手法は,従来の表数に基づく手法と比較して,提案手法のスケーラビリティの可能性を示す有望な実証実験により,方法論的および理論的知見を補完するものである。
Reinforcement learning with general utilities has recently gained attention thanks to its ability to unify several problems, including imitation learning, pure exploration, and safe RL. However, prior work for solving this general problem in a unified way has mainly focused on the tabular setting. This is restrictive when considering larger state-action spaces because of the need to estimate occupancy measures during policy optimization. In this work, we address this issue and propose to approximate occupancy measures within a function approximation class using maximum likelihood estimation (MLE). We propose a simple policy gradient algorithm (PG-OMA) where an actor updates the policy parameters to maximize the general utility objective whereas a critic approximates the occupancy measure using MLE. We provide a sample complexity analysis of PG-OMA showing that our occupancy measure estimation error only scales with the dimension of our function approximation class rather than the size of the state action space. Under suitable assumptions, we establish first order stationarity and global optimality performance bounds for the proposed PG-OMA algorithm for nonconcave and concave general utilities respectively. We complement our methodological and theoretical findings with promising empirical results showing the scalability potential of our approach compared to existing tabular count-based approaches. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# 医用対話選好アライメントのためのLCMに基づくデータアノテーションの探索
Exploring LLM-based Data Annotation Strategies for Medical Dialogue Preference Alignment ( http://arxiv.org/abs/2410.04112v1 ) ライセンス: Link先を確認 | Chengfeng Dou, Ying Zhang, Zhi Jin, Wenpin Jiao, Haiyan Zhao, Yongqiang Zhao, Zhengwei Tao, | (参考訳) 本研究は、医療専門家への依存を軽減しつつ、嗜好に沿ったデータアノテーションの課題に取り組むことを目的として、医療対話モデルを改善するために、AIフィードバックからの強化学習(RLAIF)技術を使用することを検討する。
医療におけるRLAIF研究の主な課題は、自動評価方法の限界と、医師の嗜好を正確に表現することの難しさである。
これらの課題に対処するために,標準化された患者診査に基づく新しい評価枠組みを提案する。
このフレームワークは,大規模言語モデル (LLM) の有効性を客観的に評価し,様々なモデル間の総合的な比較を可能にするように設計されている。
さらに,構成的AIアルゴリズムを用いて医師の嗜好を表現する効果的な方法を検討することで,フローチャートの特定の有効性を強調した。
この発見を利用して、我々は好みデータに注釈を付ける革新的なエージェントベースのアプローチを導入する。
このアプローチは、患者の状態に合わせて医療対話の流れを自律的に生成し、強力な一般化能力を示し、専門家の関与の必要性を減らす。
以上の結果から, エージェントベースアプローチは, 標準化された患者診査において既存のRLAIFアノテーション手法よりも優れており, 様々なテストシナリオにおいて, 現在のオープンソース医療対話 LLM を上回っていることがわかった。
This research examines the use of Reinforcement Learning from AI Feedback (RLAIF) techniques to improve healthcare dialogue models, with the aim of tackling the challenges of preference-aligned data annotation while reducing the reliance on medical experts. We argue that the primary challenges in current RLAIF research for healthcare are the limitations of automated evaluation methods and the difficulties in accurately representing physician preferences. To address these challenges, we present a new evaluation framework based on standardized patient examinations. This framework is designed to objectively assess the effectiveness of large language models (LLMs) in guiding users and following instructions, enabling a comprehensive comparison across different models. Furthermore, our investigation of effective ways to express physician preferences using Constitutional AI algorithms highlighted the particular effectiveness of flowcharts. Utilizing this finding, we introduce an innovative agent-based approach for annotating preference data. This approach autonomously creates medical dialogue flows tailored to the patient's condition, demonstrates strong generalization abilities, and reduces the need for expert involvement. Our results show that the agent-based approach outperforms existing RLAIF annotation methods in standardized patient examinations and surpasses current open source medical dialogue LLMs in various test scenarios. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# 輸送を組み込んだニューラルアーキテクチャ:流体力学における物理を考慮したニューラルモデルのランドスケープを再定義する
Transport-Embedded Neural Architecture: Redefining the Landscape of physics aware neural models in fluid mechanics ( http://arxiv.org/abs/2410.04114v1 ) ライセンス: Link先を確認 | Amirmahdi Jafari, | (参考訳) この研究は、設計による輸送方程式に従う新しいニューラルモデルを導入する。
二周期領域上で定義される物理問題であるTaylor-Green vortexは、標準物理インフォームドニューラルネットワークと我々のモデル(トランスポート埋め込みニューラルネットワーク)の性能を評価するベンチマークとして使用される。
その結果、標準物理情報ニューラルネットワークは解の正確な予測に失敗し、時間全体の初期状態を返すだけでなく、我々のモデルは物理学の時間的変化、特にレイノルズ数の高い流れをうまく捉えていることがわかった。
さらに、偽のミニマを防止できるモデルの能力は、偽のミニマに近づきやすい多物理問題に対処する方法を舗装し、複雑な物理を正確に予測するのに役立つ。
This work introduces a new neural model which follows the transport equation by design. A physical problem, the Taylor-Green vortex, defined on a bi-periodic domain, is used as a benchmark to evaluate the performance of both the standard physics-informed neural network and our model (transport-embedded neural network). Results exhibit that while the standard physics-informed neural network fails to predict the solution accurately and merely returns the initial condition for the entire time span, our model successfully captures the temporal changes in the physics, particularly for high Reynolds numbers of the flow. Additionally, the ability of our model to prevent false minima can pave the way for addressing multiphysics problems, which are more prone to false minima, and help them accurately predict complex physics. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# Riemann Sum Optimization for Accurate Integrated Gradients Computation
Riemann Sum Optimization for Accurate Integrated Gradients Computation ( http://arxiv.org/abs/2410.04118v1 ) ライセンス: Link先を確認 | Swadesh Swain, Shree Singhi, | (参考訳) IG(Integrated Gradients)は、ディープニューラルネットワークの出力を入力特徴に寄与させるアルゴリズムである。
ディープラーニングモデルに対する閉形式積分が存在しないため、不正確なリーマン・サム近似がIGを計算するために用いられる。
これはしばしば、高レベルのノイズという形で望ましくない誤りを生じさせ、モデルの意思決定プロセスに誤った洞察をもたらす。
我々は、リーマン・サムのサンプル点選択を最適化することでこれらの誤差を最小限に抑えるフレームワーク、リーマン・オプトを導入する。
このアルゴリズムは,Blur IG や Guided IG などの派生アルゴリズムと同様に,IG にも適用可能である。
RiemannOptは、インサーションスコアを最大20%改善する。
さらに、ユーザは最大4倍の計算コストを削減できるため、制約のある環境に対して高い機能を実現することができる。
Integrated Gradients (IG) is a widely used algorithm for attributing the outputs of a deep neural network to its input features. Due to the absence of closed-form integrals for deep learning models, inaccurate Riemann Sum approximations are used to calculate IG. This often introduces undesirable errors in the form of high levels of noise, leading to false insights in the model's decision-making process. We introduce a framework, RiemannOpt, that minimizes these errors by optimizing the sample point selection for the Riemann Sum. Our algorithm is highly versatile and applicable to IG as well as its derivatives like Blur IG and Guided IG. RiemannOpt achieves up to 20% improvement in Insertion Scores. Additionally, it enables its users to curtail computational costs by up to four folds, thereby making it highly functional for constrained environments. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# パフォーマンスに敏感なタスクに対する公正表現学習の再考
Rethinking Fair Representation Learning for Performance-Sensitive Tasks ( http://arxiv.org/abs/2410.04120v1 ) ライセンス: Link先を確認 | Charles Jones, Fabio de Sousa Ribeiro, Mélanie Roschewitz, Daniel C. Castro, Ben Glocker, | (参考訳) 偏見緩和のための公正表現学習手法の卓越したクラスについて検討する。
因果推論を用いて、データセットバイアスの異なるソースを定義し、定式化することにより、これらの手法に固有の重要な暗黙の仮定を明らかにする。
評価データがトレーニングデータと同じ分布から引き出された場合の公正表現学習の基本的限界を証明し, 公平表現学習の性能を分布シフト下で検証する。
本研究は,既存の文献の矛盾を明らかに説明し,基礎となるデータの因果的・統計的側面が公正表現学習の妥当性にどの程度影響するかを明らかにする。
我々は,現在の評価手法と公正表現学習手法の適用性に疑問を呈する。
我々は、データセットバイアスのきめ細かい分析が、前進する分野において重要な役割を果たすべきだと論じている。
We investigate the prominent class of fair representation learning methods for bias mitigation. Using causal reasoning to define and formalise different sources of dataset bias, we reveal important implicit assumptions inherent to these methods. We prove fundamental limitations on fair representation learning when evaluation data is drawn from the same distribution as training data and run experiments across a range of medical modalities to examine the performance of fair representation learning under distribution shifts. Our results explain apparent contradictions in the existing literature and reveal how rarely considered causal and statistical aspects of the underlying data affect the validity of fair representation learning. We raise doubts about current evaluation practices and the applicability of fair representation learning methods in performance-sensitive settings. We argue that fine-grained analysis of dataset biases should play a key role in the field moving forward. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# WAVE-UNET:OCT画像に対する注意UNETを用いた波長ベース画像再構成手法
WAVE-UNET: Wavelength based Image Reconstruction method using attention UNET for OCT images ( http://arxiv.org/abs/2410.04123v1 ) ライセンス: Link先を確認 | Maryam Viqar, Erdem Sahin, Violeta Madjarova, Elena Stoykova, Keehoon Hong, | (参考訳) 本研究では,高画質なSwept-Source Optical Coherence Tomography(SS-OCT)画像に対して,波長({\lambda})空間干渉縞を取り入れたディープラーニング(DL)ベースの再構成フレームワークを提案する。
一般的に、SS-OCTキャプチャされたフリンジは波長空間において線形であり、逆離散フーリエ変換(IDFT)を適用して深度分解されたスペクトル情報を抽出すると、拡張されたポイントスプレッド機能(PSF)により結果の画像がぼやけてしまう。
したがって、記録された波長空間 fringe は、k-線形化と補間を含む校正により、システムの複雑さの増加とともに情報の損失をもたらす可能性がある波数 (k) 空間の均一格子にスケールされる。
OCTのもう一つの課題は、低コヒーレンス干渉法に基づくシステムに固有のスペックルノイズである。
そこで我々は, WAVE-UNET を用いた設計手法を提案し, 高品質な OCT 画像を {\lambda} 空間から直接再構成し, 複雑さを低減した。
新規の設計パラダイムは線形化手順を超越し、DLを用いて生の {\lambda}-スペーススキャンのリアリズムと品質を高める。
このフレームワークは、IDFT処理された {\lambda}-スペースフリンジを入力として、アテンションゲーティングと残差接続を持つ修正UNETを使用している。
この方法は、時間複雑度を著しく低減した良質なBスキャンを生成することによって、従来のOCTシステムより一貫して優れる。
In this work, we propose to leverage a deep-learning (DL) based reconstruction framework for high quality Swept-Source Optical Coherence Tomography (SS-OCT) images, by incorporating wavelength ({\lambda}) space interferometric fringes. Generally, the SS-OCT captured fringe is linear in wavelength space and if Inverse Discrete Fourier Transform (IDFT) is applied to extract depth-resolved spectral information, the resultant images are blurred due to the broadened Point Spread Function (PSF). Thus, the recorded wavelength space fringe is to be scaled to uniform grid in wavenumber (k) space using k-linearization and calibration involving interpolations which may result in loss of information along with increased system complexity. Another challenge in OCT is the speckle noise, inherent in the low coherence interferometry-based systems. Hence, we propose a systematic design methodology WAVE-UNET to reconstruct the high-quality OCT images directly from the {\lambda}-space to reduce the complexity. The novel design paradigm surpasses the linearization procedures and uses DL to enhance the realism and quality of raw {\lambda}-space scans. This framework uses modified UNET having attention gating and residual connections, with IDFT processed {\lambda}-space fringes as the input. The method consistently outperforms the traditional OCT system by generating good-quality B-scans with highly reduced time-complexity. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# 先進デコーダ設計による医用画像分割の最適化
Optimizing Medical Image Segmentation with Advanced Decoder Design ( http://arxiv.org/abs/2410.04128v1 ) ライセンス: Link先を確認 | Weibin Yang, Zhiqi Dong, Mingyuan Xu, Longwei Xu, Dehua Geng, Yusong Li, Pengwei Wang, | (参考訳) U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
医療タスクにおけるスケールと複雑性の課題に対処するために、いくつかの変種U-Netが提案されている。
特に、近年、Swin UNETRで代表されるビジョントランスフォーマー(ViT)に基づく手法が注目されている。
しかしながら、これらの改善はしばしばエンコーダに焦点を当て、セグメンテーションの詳細を最適化するデコーダの重要な役割を見下ろしている。
この設計の不均衡は、セグメンテーション性能をさらに強化する可能性を制限する。
この問題に対処するために、アップサンプリング方法、スキップ接続、特徴抽出モジュール、既存手法の欠点など、様々なデコーダコンポーネントの役割を分析する。
その結果,Swin DER (Swin UNETR Decoder Enhanced and Refined) を提案する。
Swin DERは、オフセット座標近傍重み付けサンプリング(Onsampling)と呼ばれる学習可能な補間アルゴリズムを用いてアップサンプリングを行い、従来のスキップ接続を空間チャネル並列注意ゲート(SCP AG)に置き換える。
さらに、Swin DERはデコーダの機能抽出モジュールに注意機構とともに変形可能な畳み込みを導入している。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
コードは、https://github.com/WillBeanYang/Swin-DERで入手できる。
U-Net is widely used in medical image segmentation due to its simple and flexible architecture design. To address the challenges of scale and complexity in medical tasks, several variants of U-Net have been proposed. In particular, methods based on Vision Transformer (ViT), represented by Swin UNETR, have gained widespread attention in recent years. However, these improvements often focus on the encoder, overlooking the crucial role of the decoder in optimizing segmentation details. This design imbalance limits the potential for further enhancing segmentation performance. To address this issue, we analyze the roles of various decoder components, including upsampling method, skip connection, and feature extraction module, as well as the shortcomings of existing methods. Consequently, we propose Swin DER (i.e., Swin UNETR Decoder Enhanced and Refined) by specifically optimizing the design of these three components. Swin DER performs upsampling using learnable interpolation algorithm called offset coordinate neighborhood weighted up sampling (Onsampling) and replaces traditional skip connection with spatial-channel parallel attention gate (SCP AG). Additionally, Swin DER introduces deformable convolution along with attention mechanism in the feature extraction module of the decoder. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and the MSD brain tumor segmentation task. Code is available at: https://github.com/WillBeanYang/Swin-DER | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# IceCloudNet:Meteosat SEVIRIによる雲氷の3次元再構成
IceCloudNet: 3D reconstruction of cloud ice from Meteosat SEVIRI ( http://arxiv.org/abs/2410.04135v1 ) ライセンス: Link先を確認 | Kai Jeggle, Mikolaj Czerkawski, Federico Serva, Bertrand Le Saux, David Neubauer, Ulrike Lohmann, | (参考訳) IceCloudNetは、高品質で垂直に解決された雲氷水(IWC)と結晶数濃度(N$_\textrm{ice}$)を予測できる機械学習に基づく新しい手法である。
この予測は、静止衛星観測(SEVIRI)の時空間的カバレッジと解像度と、アクティブ衛星探索(DARDAR)の垂直分解能である。
IceCloudNetは、ConvNeXtベースのU-Netと3D PatchGAN識別器モデルで構成され、DARDARプロファイルを同じ位置にあるSEVIRI画像から予測することによってトレーニングされる。
狭いオーバーパスのため、DARDARデータが少ないにもかかわらず、IceCloudNetは雲の発生、空間構造、ミクロ物理特性を高精度で予測することができる。
このモデルは10年間のSEVIRIデータに適用され、30{\deg}Wから30{\deg}E、30{\deg}Sから30{\deg}Nの空間領域で3 kmx3 kmx240 mx15 の氷を含む雲の垂直分解IWCとN$_textrm{ice}$のデータセットを生成する。
生成されたデータセットは、DARDARが利用可能になった期間、マグニチュード6桁以上、さらにIceCloudNetは、最近終了したDARDARの衛星ミッションの寿命を超えて、垂直クラウドプロファイルを生成することができる。
IceCloudNet is a novel method based on machine learning able to predict high-quality vertically resolved cloud ice water contents (IWC) and ice crystal number concentrations (N$_\textrm{ice}$). The predictions come at the spatio-temporal coverage and resolution of geostationary satellite observations (SEVIRI) and the vertical resolution of active satellite retrievals (DARDAR). IceCloudNet consists of a ConvNeXt-based U-Net and a 3D PatchGAN discriminator model and is trained by predicting DARDAR profiles from co-located SEVIRI images. Despite the sparse availability of DARDAR data due to its narrow overpass, IceCloudNet is able to predict cloud occurrence, spatial structure, and microphysical properties with high precision. The model has been applied to ten years of SEVIRI data, producing a dataset of vertically resolved IWC and N$_\textrm{ice}$ of clouds containing ice with a 3 kmx3 kmx240 mx15 minute resolution in a spatial domain of 30{\deg}W to 30{\deg}E and 30{\deg}S to 30{\deg}N. The produced dataset increases the availability of vertical cloud profiles, for the period when DARDAR is available, by more than six orders of magnitude and moreover, IceCloudNet is able to produce vertical cloud profiles beyond the lifetime of the recently ended satellite missions underlying DARDAR. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-05 |
# 読み上げから圧縮へ:プロンプト圧縮のためのマルチドキュメントリーダーを探る
From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression ( http://arxiv.org/abs/2410.04139v1 ) ライセンス: Link先を確認 | Eunseong Choi, Sunkyung Lee, Minjin Choi, June Park, Jongwuk Lee, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクに先進的なプロンプト技術を用いて、大幅な性能向上を実現している。
しかし、プロンプトの長さが長くなると計算コストが高くなり、しばしば重要な情報が曖昧になる。
これらの問題を緩和するためにプロンプト圧縮が提案されているが、課題に直面している。
一 グローバルな文脈を捉えて
二 圧縮機を効果的に訓練すること。
これらの課題に対処するため,本研究では,Fusion-in-Decoder (FiD) アーキテクチャを利用した新しいプロンプト圧縮手法であるReading To Compressing (R2C)を導入する。
具体的には、FiDのクロスアテンションスコアを使用して、重要なチャンクと文をプロンプトから識別する。
R2Cは、圧縮機を訓練するための擬似ラベルの必要性を抑えながら、意味的一貫性を損なうことなく、グローバルなコンテキストを効果的にキャプチャする。
実験の結果,R2Cはキーコンテキストを保ち,領域外評価ではLLM性能を6%向上し,プロンプト長を80%低減した。
Large language models (LLMs) have achieved significant performance gains using advanced prompting techniques over various tasks. However, the increasing length of prompts leads to high computational costs and often obscures crucial information. Prompt compression has been proposed to alleviate these issues, but it faces challenges in (i) capturing the global context and (ii) training the compressor effectively. To tackle these challenges, we introduce a novel prompt compression method, namely Reading To Compressing (R2C), utilizing the Fusion-in-Decoder (FiD) architecture to identify the important information in the prompt. Specifically, the cross-attention scores of the FiD are used to discern essential chunks and sentences from the prompt. R2C effectively captures the global context without compromising semantic consistency while detouring the necessity of pseudo-labels for training the compressor. Empirical results show that R2C retains key contexts, enhancing the LLM performance by 6% in out-of-domain evaluations while reducing the prompt length by 80%. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 動的教師による双方向マッピングの構築による蒸留のギャップ保存
Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher ( http://arxiv.org/abs/2410.04140v1 ) ライセンス: Link先を確認 | Yong Guo, Shulian Zhang, Haolin Pan, Jing Liu, Yulun Zhang, Jian Chen, | (参考訳) 知識蒸留は、大きな教師モデルからコンパクトな学生モデルに知識を伝達することを目的としており、しばしばそれらの間に大きなパフォーマンスギャップが生じる。
あまりに大きなパフォーマンスギャップがトレーニングプロセスの妨げになりかねないことが,近年の研究では確認されている。
そこで本研究では,このギャップを埋める訓練とともに,教師モデルの追加をゼロから訓練するGap Preserving Distillation (GPD)法を提案する。
このようにして、蒸留プロセス全体において、教師と学生の合理的なパフォーマンスギャップを維持することが可能となる。
動的教師から生徒への蒸留をさらに強化するために,パラメータの共有を強制し,パラメータ継承を奨励することで,ハード戦略を開発する。
Inverse Reparameterization (IR) 法と Channel-Branch Reparameterization (CBR) 法に基づくソフトな双方向マッピングを構築する。
我々は,学生モデルと全く同じ精度を保ちながら,任意の拡張比でより大きな動的教師を初期化できることを強調した。
このようにして、ダイナミックな教師と学生が同じ点から始まり、訓練の初期段階であまりに大きなギャップを避けることが保証される。
我々のCBRでは,パラメータ共有により,学習後の学習を伴わずに,学生モデルを直接抽出し,モデル展開に高い柔軟性を持たせる。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法を著しく上回り、1.58%の精度向上を実現した。
興味深いことに、GPDは、スクラッチと微調整のトレーニングを含む事前訓練された教師なしでシナリオを一般化し、ResNet18でそれぞれ1.80%と0.89%の大幅な改善を実現している。
Knowledge distillation aims to transfer knowledge from a large teacher model to a compact student counterpart, often coming with a significant performance gap between them. We find that a too-large performance gap can hamper the training process, which is also verified in recent studies. To address this, we propose a Gap Preserving Distillation (GPD) method that trains an additional dynamic teacher model from scratch along with training the student to bridge this gap. In this way, it becomes possible to maintain a reasonable performance gap between teacher and student during the whole distillation process. To further strengthen distillation from the dynamic teacher to the student, we develop a hard strategy by enforcing them to share parameters and encouraging parameter inheritance. Besides hard strategy, we also build the soft bidirectional mappings between them which are built on an Inverse Reparameterization (IR) method and a Channel-Branch Reparameterization (CBR) strategy. We highlight that our IR is able to initialize a larger dynamic teacher with an arbitrary expansion ratio, while preserving exactly the same accuracy as the given student model. In this way, it guarantees that the dynamic teacher and student start from the same point and avoid a too large gap in early stage of training. As for our CBR, with parameter-sharing, it directly extracts an effective student model from the well-learned dynamic teacher without any post-training, making our method highly flexible for model deployment. In the experiments, GPD significantly outperforms existing distillation methods on top of both CNNs and transformers architectures, achieving up to 1.58% accuracy improvement. Interestingly, GPD also generalizes well to the scenarios without a pre-trained teacher, including training from scratch and fine-tuning, yielding a large improvement of 1.80% and 0.89% on ResNet18, respectively. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# ConDa: コントリビューションダンピングによる高速フェデレーション・アンラーニング
ConDa: Fast Federated Unlearning with Contribution Dampening ( http://arxiv.org/abs/2410.04144v1 ) ライセンス: Link先を確認 | Vikram S Chundawat, Pushkar Niroula, Prasanna Dhungana, Stefan Schoepf, Murari Mandal, Alexandra Brintrup, | (参考訳) フェデレートラーニング(FL)は、分散データソースまたはクライアント間で協調的なモデルトレーニングを可能にした。
共有モデルに新たな参加者を追加することは、大きな技術的ハードルにはならないが、参加者の排除と、共有モデルに含まれる関連情報の共有は、依然として課題である。
この問題に対処するために、フェデレーション付きアンラーニングが重要な研究の方向として現れ、残りのデータに対するモデル性能を損なうことなく、グローバルに訓練されたモデルから情報を取り除こうとしている。
現代のフェデレートされたアンラーニングメソッドの多くは、クライアント側やサーバ側で重い計算を必要とするグローバルモデルやメソッドをトレーニングするために、残りのクライアントデータを使用するといった、コストのかかるアプローチを使用している。
Contribution Dampening(ConDa)は、各クライアントのグローバルモデルに影響を与えるパラメータを追跡し、忘れてしまうクライアントからプライバシを侵害するグローバルモデルのパラメータをシナプス減衰させることにより、効率的なアンラーニングを行うフレームワークである。
私たちの技術では、クライアントデータや何らかの再トレーニングは必要とせず、クライアント側やサーバ側でも計算オーバーヘッドを発生させません。
複数のデータセットで実験を行い、ConDaがクライアントのデータを忘れるのが効果的であることを実証する。
MNIST、CIFAR10、CIFAR100データセットで実施された実験で、ConDaは最も高速な連邦化未学習法であることが証明され、最先端のアプローチを少なくとも100倍上回った。
私たちは、非IIDフェデレートラーニング設定に重点を置いています。
さらに、バックドアおよびメンバシップ推論攻撃によるConDaの堅牢性を検証する。
本研究は,法的・倫理的要件を遵守する上で,FLにとって重要な要素であると考えられる。
Federated learning (FL) has enabled collaborative model training across decentralized data sources or clients. While adding new participants to a shared model does not pose great technical hurdles, the removal of a participant and their related information contained in the shared model remains a challenge. To address this problem, federated unlearning has emerged as a critical research direction, seeking to remove information from globally trained models without harming the model performance on the remaining data. Most modern federated unlearning methods use costly approaches such as the use of remaining clients data to retrain the global model or methods that would require heavy computation on client or server side. We introduce Contribution Dampening (ConDa), a framework that performs efficient unlearning by tracking down the parameters which affect the global model for each client and performs synaptic dampening on the parameters of the global model that have privacy infringing contributions from the forgetting client. Our technique does not require clients data or any kind of retraining and it does not put any computational overhead on either the client or server side. We perform experiments on multiple datasets and demonstrate that ConDa is effective to forget a client's data. In experiments conducted on the MNIST, CIFAR10, and CIFAR100 datasets, ConDa proves to be the fastest federated unlearning method, outperforming the nearest state of the art approach by at least 100x. Our emphasis is on the non-IID Federated Learning setting, which presents the greatest challenge for unlearning. Additionally, we validate ConDa's robustness through backdoor and membership inference attacks. We envision this work as a crucial component for FL in adhering to legal and ethical requirements. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 自己ペースト多言語NMTの基準としてモデル重量の変動は利用できるか?
Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT? ( http://arxiv.org/abs/2410.04147v1 ) ライセンス: Link先を確認 | Àlex R. Atrio, Alexis Allemann, Ljiljana Dolamic, Andrei Popescu-Belis, | (参考訳) トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
このアルゴリズムは、トランスフォーマーネットワークの全層間のスムーズなKL分散によって測定されるように、モデルの重みが著しく進化しない場合、ミニバッチの言語を変化させる。
このアルゴリズムは単言語バッチを交互に使用するよりも優れているが、変換品質(BLEUとCOMETで測定される)と収束速度の点でシャッフルバッチは使用しない。
Many-to-one neural machine translation systems improve over one-to-one systems when training data is scarce. In this paper, we design and test a novel algorithm for selecting the language of minibatches when training such systems. The algorithm changes the language of the minibatch when the weights of the model do not evolve significantly, as measured by the smoothed KL divergence between all layers of the Transformer network. This algorithm outperforms the use of alternating monolingual batches, but not the use of shuffled batches, in terms of translation quality (measured with BLEU and COMET) and convergence speed. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 自然言語説明による推論
Reasoning with Natural Language Explanations ( http://arxiv.org/abs/2410.04148v1 ) ライセンス: Link先を確認 | Marco Valentino, André Freitas, | (参考訳) 説明は人間の合理性、学習と一般化の基盤となり、科学的発見とコミュニケーションを支援するメディアの1つである。
人間の推論における説明の重要性から、自然言語推論(NLI)における研究が増加し、学習や推論において説明が果たす役割を再考し、下流のタスクで自然言語の説明を効果的にエンコードし使用するための説明に基づくNLIモデルを構築しようとしている。
説明的推論は物質的推論と形式的推論の両方の側面を反映しており、複雑な推論をモデル化し提供するための特にリッチな設定となっている。
本チュートリアルでは、説明に基づくNLIの分野を包括的に紹介し、説明の認識論的・言語学的基礎に基づいて、説明的推論が可能なシステム構築に使用できる主要なアーキテクチャ動向と評価方法論を体系的に記述する。
Explanation constitutes an archetypal feature of human rationality, underpinning learning and generalisation, and representing one of the media supporting scientific discovery and communication. Due to the importance of explanations in human reasoning, an increasing amount of research in Natural Language Inference (NLI) has started reconsidering the role that explanations play in learning and inference, attempting to build explanation-based NLI models that can effectively encode and use natural language explanations on downstream tasks. Research in explanation-based NLI, however, presents specific challenges and opportunities, as explanatory reasoning reflects aspects of both material and formal inference, making it a particularly rich setting to model and deliver complex reasoning. In this tutorial, we provide a comprehensive introduction to the field of explanation-based NLI, grounding this discussion on the epistemological-linguistic foundations of explanations, systematically describing the main architectural trends and evaluation methodologies that can be used to build systems capable of explanatory reasoning. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# DAMMI:心理学的注釈付きマルチモードIoTデータセットにおける日々の活動
DAMMI:Daily Activities in a Psychologically Annotated Multi-Modal IoT dataset ( http://arxiv.org/abs/2410.04152v1 ) ライセンス: Link先を確認 | Mohsen Falah Rad, Kamrad Khoshhal Roudposhti, Mohammad Hassan Khoobkar, Mohsen Shirali, Zahra Ahmadi, Carlos Fernandez-Llatas, | (参考訳) 高齢者の増加と高齢化ピラミッドの変化は、医療や福祉サービスへの需要を増している。
この懸念に対処するため、医療費の上昇とともに、近年の医療・技術ソリューションの進歩によって家庭における老化の概念が浮上した。
コンピュータ科学、コミュニケーション技術、医療の専門家は、高齢者の健康状態を監視し、分析し、予測するために、生活環境、ウェアラブルデバイス、スマートフォンにセンサーを導入し、高度なデータマイニングと学習能力を備えたインテリジェントシステムと連携して、安価な健康ソリューションを開発するために協力してきた。
しかし、インテリジェントな医療システムの実装と分析技術の開発には、実世界のデータ上でのアルゴリズムのテストと評価が必要である。
ニーズにもかかわらず、これらの要件を満たす公開データセットは不足している。
このギャップに対処するため、この分野の研究者を支援するために設計されたDAMMIデータセットを本研究に提示する。
このデータセットには、ホームインストールされたセンサー、スマートフォンデータ、リストバンド146日間を通じて収集された高齢者の日々の活動データが含まれている。
また、心理学者のチームによって提供される毎日の心理学的報告も含んでいる。
さらに、データ収集は、新型コロナウイルス(COVID-19)のパンデミック、正月、ラマダンの宗教月といった重要な出来事に及び、分析の機会を提供する。
本稿では,データ収集システム,記録データの種類,前処理したイベントログに関する詳細な情報について概説する。
このデータセットは、IoTおよびデータマイニングの専門家による研究アイデアの評価と実装を支援することを目的としている。
The growth in the elderly population and the shift in the age pyramid have increased the demand for healthcare and well-being services. To address this concern, alongside the rising cost of medical care, the concept of ageing at home has emerged, driven by recent advances in medical and technological solutions. Experts in computer science, communication technology, and healthcare have collaborated to develop affordable health solutions by employing sensors in living environments, wearable devices, and smartphones, in association with advanced data mining and intelligent systems with learning capabilities, to monitor, analyze, and predict the health status of elderly individuals. However, implementing intelligent healthcare systems and developing analytical techniques requires testing and evaluating algorithms on real-world data. Despite the need, there is a shortage of publicly available datasets that meet these requirements. To address this gap, we present the DAMMI dataset in this work, designed to support researchers in the field. The dataset includes daily activity data of an elderly individual collected via home-installed sensors, smartphone data, and a wristband over 146 days. It also contains daily psychological reports provided by a team of psychologists. Furthermore, the data collection spans significant events such as the COVID-19 pandemic, New Year's holidays, and the religious month of Ramadan, offering additional opportunities for analysis. In this paper, we outline detailed information about the data collection system, the types of data recorded, and pre-processed event logs. This dataset is intended to assist professionals in IoT and data mining in evaluating and implementing their research ideas. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 変分推論によるニューロシンボリックエンティティアライメント
Neuro-Symbolic Entity Alignment via Variational Inference ( http://arxiv.org/abs/2410.04153v1 ) ライセンス: Link先を確認 | Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Jiannong Cao, Xiao Huang, | (参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)をマージすることを目的として、等価なエンティティペアを識別する。
既存の手法はシンボリックモデルとニューラルモデルに分類することができる。
シンボリックモデルは正確には言えないが、サブ構造の不均一性と疎性に苦しむ一方、ニューラルネットワークは有効ではあるが、一般的に解釈可能性に欠け、不確実性に対処できない。
両手法の強みを組み合わせた確率的ニューロシンボリック・フレームワークであるNeuSymEAを提案する。
NeuSymEAは、マルコフ確率場における全ての可能なペアの真理スコアの合同確率をモデル化し、一連の規則で規制され、変分EMアルゴリズムでそれを最適化する。
Eステップでは、ニューラルモデルが真理スコア分布をパラメータ化し、欠落したアライメントを推測する。
Mステップでは、観測および推測されたアライメントに基づいてルールウェイトを更新する。
解釈容易化のために,このフレームワーク上で,推定アライメントのサポートルールを生成するパスグレードベースの説明器をさらに設計する。
ベンチマークの実験では、NeuSymEAは有効性と堅牢性という点でベースラインを著しく上回っているだけでなく、解釈可能な結果も示している。
Entity alignment (EA) aims to merge two knowledge graphs (KGs) by identifying equivalent entity pairs. Existing methods can be categorized into symbolic and neural models. Symbolic models, while precise, struggle with substructure heterogeneity and sparsity, whereas neural models, although effective, generally lack interpretability and cannot handle uncertainty. We propose NeuSymEA, a probabilistic neuro-symbolic framework that combines the strengths of both methods. NeuSymEA models the joint probability of all possible pairs' truth scores in a Markov random field, regulated by a set of rules, and optimizes it with the variational EM algorithm. In the E-step, a neural model parameterizes the truth score distributions and infers missing alignments. In the M-step, the rule weights are updated based on the observed and inferred alignments. To facilitate interpretability, we further design a path-ranking-based explainer upon this framework that generates supporting rules for the inferred alignments. Experiments on benchmarks demonstrate that NeuSymEA not only significantly outperforms baselines in terms of effectiveness and robustness, but also provides interpretable results. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 大規模言語モデルを用いた対話応答生成のためのトキシックサブワードプルーニング
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models ( http://arxiv.org/abs/2410.04155v1 ) ライセンス: Link先を確認 | Hongyuan Lu, Wai Lam, | (参考訳) 大型言語モデル(LLM)を有害なコンテンツの生成から守る方法は重要な研究分野である。
しかし、ほとんどの研究は、重量を更新することでLSMを改善するための様々なモデルトレーニング技術に焦点を当てた。
典型的な研究領域は安全アライメントである。
しかし、これは費用がかかり、面倒なことも多く、経験豊富なNLP実践者がトレーニングを慎重に扱わなければ破滅的なことを忘れてしまうなど、さらに多くの問題にモデルを公開することができる。
そこで我々は,BPEから有毒な単語を含むサブワードを抽出する,単純で効果的かつ斬新なアルゴリズム,すなわち \textbf{Tox}ic Subword \textbf{Prun}ing (ToxPrune)を提案する。
機械翻訳作業に有害なBPEトークンを刈り取る従来の研究とは対照的に, LLM上で有害なコンテンツが発生するのを防ぐのに, 驚くほど有用であることが判明した。
幸いなことに,ToxPruneは,対話応答生成のタスクにおいて,有害言語モデルであるNSFW-3Bを同時に改善することが示唆された。
ToxPruneは明らかに公式のLlama-3.1-6Bを、対話の多様性の指標として改善できることがわかった。
ToxPrune は有害 LLM の修復と非毒性 LLM の改善に有効である可能性が示唆された。
今後の作業を容易にするリソースをリリースする予定です。
※
How to defend large language models (LLMs) from generating toxic content is an important research area. Yet, most research focused on various model training techniques to remediate LLMs by updating their weights. A typical related research area is safety alignment. This however is often costly and tedious and can expose the model to even more problems such as catastrophic forgetting if the trainings are not carefully handled by experienced NLP practitioners. We thus propose a simple yet effective and novel algorithm, namely \textbf{Tox}ic Subword \textbf{Prun}ing (ToxPrune) to prune the subword contained by the toxic words from BPE in trained LLMs. In contrast to the previous work that demonstrates pruning BPE tokens as harmful to the task of machine translation, we surprisingly found its usefulness in preventing toxic content from being generated on LLMs. Fortunately, our findings suggest that ToxPrune simultaneously improves the toxic language model NSFW-3B on the task of dialogue response generation obviously. We surprisingly found that ToxPrune can even obviously improve official Llama-3.1-6B in the metric of dialogue diversity. Extensive automatic results and human evaluation indicate that ToxPrune could be helpful for both remediating toxic LLMs and improving non-toxic LLMs on the task of dialogue response generation.\footnote{We plan to release the resources to facilitate future work.} | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# マルチモーダル誘導拡散モデルによる実世界の顔修復における虚偽イリュージョンの克服
Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model ( http://arxiv.org/abs/2410.04161v1 ) ライセンス: Link先を確認 | Keda Tao, Jinjin Gu, Yulun Zhang, Xiucheng Wang, Nan Cheng, | (参考訳) 低品質入力から顔画像復元の質を向上させるために, MGFR (Multi-modal Guided Real-World Face Restoration) 技術を導入した。
MGFRは、属性テキストのプロンプト、高品質の参照画像、アイデンティティ情報を組み合わせることで、偽の顔属性や、生成的顔復元法に関連するアイデンティティの生成を緩和することができる。
デュアルコントロールアダプタと2段階のトレーニング戦略を組み込むことで,目的とする修復作業において,マルチモーダル事前情報を効果的に活用する。
また、5000のアイデンティティにまたがる23,000以上の高解像度の顔画像からなるReface-HQデータセットを提示し、参照顔訓練画像の必要性に対処する。
本手法は, 顔の細部を高度劣化下で復元する際の視覚的品質を向上し, 復元過程の制御が可能となり, 同一性保存の精度と属性補正の精度が向上する。
トレーニングに否定的な品質サンプルと属性プロンプトを含めることで、詳細かつ知覚的に正確な画像を生成するモデルの能力をさらに洗練する。
We introduce a novel Multi-modal Guided Real-World Face Restoration (MGFR) technique designed to improve the quality of facial image restoration from low-quality inputs. Leveraging a blend of attribute text prompts, high-quality reference images, and identity information, MGFR can mitigate the generation of false facial attributes and identities often associated with generative face restoration methods. By incorporating a dual-control adapter and a two-stage training strategy, our method effectively utilizes multi-modal prior information for targeted restoration tasks. We also present the Reface-HQ dataset, comprising over 23,000 high-resolution facial images across 5,000 identities, to address the need for reference face training images. Our approach achieves superior visual quality in restoring facial details under severe degradation and allows for controlled restoration processes, enhancing the accuracy of identity preservation and attribute correction. Including negative quality samples and attribute prompts in the training further refines the model's ability to generate detailed and perceptually accurate images. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 全距離における空間的真空絡みの検出と多体状態における必要十分な絡み合い尺度への負性促進
Detecting spacelike vacuum entanglement at all distances and promoting negativity to a necessary and sufficient entanglement measure in many-body regimes ( http://arxiv.org/abs/2410.04162v1 ) ライセンス: Link先を確認 | Boyu Gao, Natalie Klco, | (参考訳) 存在することは知られているが、量子情報処理の基本的な資源である空間的な真空エンタングルメントのアクセシビリティは、大規模フィールドにおける真空変動のスケールを超える距離で疑問視されている。
自由スカラー場真空を含む多体混合ガウス状態の広いサブクラスでは、対数否定性は絡み合いの必要十分かつ十分な尺度であることが示され、連続体内の一対の単モード検出器によって完全にアクセス可能である。
高精度かつ最適な検出プロファイルを導出することにより、大規模フィールドの絡み合い資源をあらゆる距離で利用できることが示される。
Though known to be present, the accessibility of spacelike vacuum entanglement capable of being a fundamental resource for quantum information processing has remained in question at distances beyond the scale of vacuum fluctuations in massive fields. For a broad subclass of physical many-body mixed Gaussian states, including the free scalar field vacuum, the logarithmic negativity is here shown to be a necessary and sufficient measure of entanglement and to be entirely accessible by pairs of single-mode detectors in the continuum. By deriving exact and optimal detection profiles, entanglement resources in the massive field are demonstrated to be available at all distances. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 効果的なカウンタ対応に向けて:オンライントラベリングに対処するための戦略による人間の選好の調整
Towards Effective Counter-Responses: Aligning Human Preferences with Strategies to Combat Online Trolling ( http://arxiv.org/abs/2410.04164v1 ) ライセンス: Link先を確認 | Huije Lee, Hoyun Song, Jisu Shin, Sukmin Cho, SeungYoon Han, Jong C. Park, | (参考訳) オンラインコミュニティでのトロールは通常、怒りを引き起こすことや議論を操作することのような破壊的な行動を伴い、偏極化した雰囲気と感情的な苦悩をもたらす。
これらのネガティブな影響を緩和し、健全で建設的なコミュニティ雰囲気を維持するためには、ロバストなモデレーションが不可欠である。
しかしながら、トロルを効果的に扱うことは、その振る舞いが広く変化し、それに対応するために異なる応答戦略(RS)を必要とするため、困難である。
この多様性は、特定の状況ごとに適切なRSを選択することを困難にしている。
この課題に対処するために、我々は人間が様々な種類のトロリング行動に合わせた戦略を好んでいるかどうかを調査した。
以上の結果より, トロリングの種類と好ましいRSの相関が示唆された。
本稿では,適切なRSを推奨することでトロルに対する反応答を生成する手法を提案する。
実験の結果,提案手法は建設的議論をガイドし,トロルのネガティブな影響を低減し,オンラインコミュニティ環境を向上することを示した。
Trolling in online communities typically involves disruptive behaviors such as provoking anger and manipulating discussions, leading to a polarized atmosphere and emotional distress. Robust moderation is essential for mitigating these negative impacts and maintaining a healthy and constructive community atmosphere. However, effectively addressing trolls is difficult because their behaviors vary widely and require different response strategies (RSs) to counter them. This diversity makes it challenging to choose an appropriate RS for each specific situation. To address this challenge, our research investigates whether humans have preferred strategies tailored to different types of trolling behaviors. Our findings reveal a correlation between the types of trolling encountered and the preferred RS. In this paper, we introduce a methodology for generating counter-responses to trolls by recommending appropriate RSs, supported by a dataset aligning these strategies with human preferences across various troll contexts. The experimental results demonstrate that our proposed approach guides constructive discussion and reduces the negative effects of trolls, thereby enhancing the online community environment. | 翻訳日:2024-11-02 13:51:18 公開日:2024-10-05 |
# 確率的推論としての選好最適化
Preference Optimization as Probabilistic Inference ( http://arxiv.org/abs/2410.04166v1 ) ライセンス: Link先を確認 | Abbas Abdolmaleki, Bilal Piot, Bobak Shahriari, Jost Tobias Springenberg, Tim Hertweck, Rishabh Joshi, Junhyuk Oh, Michael Bloesch, Thomas Lampe, Nicolas Heess, Jonas Buchli, Martin Riedmiller, | (参考訳) 既存の選好最適化手法は主に、ペア化された例(好ましくない例と好ましくない例)が利用できると仮定して、人間のフィードバックから直接学習するために設計されている。
対照的に,好ましくない例や好ましくない例を活用でき,一つのフィードバック(肯定的あるいは否定的)が得られても機能する手法を提案する。
この柔軟性により、人間のフィードバックに基づく生成言語モデルのトレーニングや、学習(価値)関数が利用可能なシーケンシャルな意思決定問題のトレーニングポリシなど、さまざまな形式のフィードバックやモデルでシナリオに適用することが可能になります。
提案手法は,期待最大化(EM)を用いて(古典的な期待報酬最大化とは対照的に)望ましい結果の確率を直接最適化することを提案する。
提案手法は,提案手法を優先最適化に適用した場合,好ましくないサンプルを無視しながら,好ましくないサンプルの可能性のみを最大化する。
提案手法は,非推奨結果を明示的に組み込むためにEMアルゴリズムを拡張することで,肯定的および否定的なフィードバックから学習する直感的かつ汎用的な方法を提供する,新しい,理論的に基礎付けられた選好最適化アルゴリズムを実現する。
Existing preference optimization methods are mainly designed for directly learning from human feedback with the assumption that paired examples (preferred vs. dis-preferred) are available. In contrast, we propose a method that can leverage unpaired preferred or dis-preferred examples, and works even when only one type of feedback (positive or negative) is available. This flexibility allows us to apply it in scenarios with varying forms of feedback and models, including training generative language models based on human feedback as well as training policies for sequential decision-making problems, where learned (value) functions are available. Our approach builds upon the probabilistic framework introduced in (Dayan and Hinton, 1997), which proposes to use expectation-maximization (EM) to directly optimize the probability of preferred outcomes (as opposed to classic expected reward maximization). To obtain a practical algorithm, we identify and address a key limitation in current EM-based methods: when applied to preference optimization, they solely maximize the likelihood of preferred examples, while neglecting dis-preferred samples. We show how one can extend EM algorithms to explicitly incorporate dis-preferred outcomes, leading to a novel, theoretically grounded, preference optimization algorithm that offers an intuitive and versatile way to learn from both positive and negative feedback. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# Beyond Language: MLX変換器をエンジニアリング物理学に適用する
Beyond Language: Applying MLX Transformers to Engineering Physics ( http://arxiv.org/abs/2410.04167v1 ) ライセンス: Link先を確認 | Stavros Kassinos, Alessio Alexiadis, | (参考訳) Transformer Neural Networksは、Large Language Models(LLMs)の分野で、活動と発見の爆発を駆動している。
対照的に、トランスフォーマーを工学物理学に適用しようとする試みはごくわずかである。
ディリクレ境界条件を持つ2次元プレートにおける熱伝導問題を解くための物理インフォームドトランスモデルを提案する。
このモデルは機械学習フレームワークMLXで実装され、Apple Mシリーズプロセッサの統一メモリを活用する。
MLXの使用は、モデルをトレーニングし、控えめなメモリ要件だけでパーソナルマシン上で効率的に予測を行うことができることを意味している。
トランスフォーマーモデルの訓練, 検証, 試験には, 中心有限差分を用いた2次元熱伝導問題を解く。
これらの集合における各有限差分解は、4つのランダムなディリクレ境界条件、一様だがランダムな内部温度分布、ランダムに選択された熱拡散率で初期化される。
検証はトレーニング中にインラインで行われ、過度に適合しないように監視する。
未確認条件に対する温度場から定常状態への進化を予測することにより, 学習モデルの優れた性能を実証した。
Transformer Neural Networks are driving an explosion of activity and discovery in the field of Large Language Models (LLMs). In contrast, there have been only a few attempts to apply Transformers in engineering physics. Aiming to offer an easy entry point to physics-centric Transformers, we introduce a physics-informed Transformer model for solving the heat conduction problem in a 2D plate with Dirichlet boundary conditions. The model is implemented in the machine learning framework MLX and leverages the unified memory of Apple M-series processors. The use of MLX means that the models can be trained and perform predictions efficiently on personal machines with only modest memory requirements. To train, validate and test the Transformer model we solve the 2D heat conduction problem using central finite differences. Each finite difference solution in these sets is initialized with four random Dirichlet boundary conditions, a uniform but random internal temperature distribution and a randomly selected thermal diffusivity. Validation is performed in-line during training to monitor against over-fitting. The excellent performance of the trained model is demonstrated by predicting the evolution of the temperature field to steady state for the unseen test set of conditions. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# Binet-Fibonacci計算とN = 2超対称ゴールデン量子オシレータ
Binet-Fibonacci Calculus and N = 2 Supersymmetric Golden Quantum Oscillator ( http://arxiv.org/abs/2410.04169v1 ) ライセンス: Link先を確認 | Oktay K. Pashaev, | (参考訳) ビネット・フィボナッチ積分(ビネット・フィボナッチかん、英: Binet-Fibonacci calculus)は、フィボナッチ微分とフィボナッチ数演算子のビネット公式を関連付け、量子状態のフォック空間で作用する。
これは、金振動子とエネルギースペクトルをフィボナッチ数で研究するためのツールを提供する。
ここで、このモデルを超対称数作用素と対応するビネット公式に一般化し、超対称フィボナッチ作用素${\cal F}_{\cal N}$とする。
これは超対称金振動子のハミルトニアンを決定し、$H_f \otimes H_b$ - フェルミオンボソンヒルベルト空間で作用し、$N=2$超対称代数に属する。
このモデルのフェルミオンのトレースは、ハミルトン振動子をゴールデン振動子に還元する。
超フィボナッチ数作用素の固有状態は二重退化であり、超ブロック球面上の点によって特徴づけられる。
超対称フィボナッチ消滅作用素により、この作用素の固有状態として超対称コヒーレント状態を構成する。
これらの状態におけるフェルミオンとボソンとの絡み合いは、グラム行列式とフィボナッチ指数関数で表される収束によって計算される。
これらの函数はフォック・バーグマン表現における黄金コヒーレント状態の内部積の記述として現れる。
フェルミオンボソンの絡み合いを測る極限$\alpha \rightarrow 0$と対応するフォン・ノイマンエントロピーから得られる基準状態がゴールデン比によって完全に特徴づけられることを示す。
The Binet-Fibonacci calculus, as $\varphi \varphi'$ - two base quantum calculus, relates Fibonacci derivative with Binet formula of Fibonacci number operator, acting in Fock space of quantum states. It provides a tool to study the Golden oscillator with energy spectrum in form of Fibonacci numbers. Here we generalize this model to supersymmetric number operator and corresponding Binet formula for supersymmetric Fibonacci operator ${\cal F}_{\cal N}$. It determines the Hamiltonian of supersymmetric Golden oscillator, acting in $H_f \otimes H_b$ - fermion-boson Hilbert space and belonging to $N=2$ supersymmetric algebra. Trace on fermions of this model reduces the Hamiltonian to the Golden oscillator. The eigenstates of the super Fibonacci number operator are double degenerate and can be characterized by a point on the super-Bloch sphere. By the supersymmetric Fibonacci annihilation operator, we construct the supersymmetric coherent states as eigenstates of this operator. Entanglement of fermions with bosons in these states is calculated by the concurrence, represented by the Gram determinant and Fibonacci exponential functions. These functions have been appeared as descriptive for inner product of the Golden coherent states in Fock-Bargmann representation. We show that the reference state, coming from the limit $\alpha \rightarrow 0$ and corresponding von Neumann entropy, measuring fermion-boson entanglement, are characterized completely by the Golden ratio. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# DB-SAM: 高品質のユニバーサル医療画像セグメンテーション
DB-SAM: Delving into High Quality Universal Medical Image Segmentation ( http://arxiv.org/abs/2410.04172v1 ) ライセンス: Link先を確認 | Chao Qin, Jiale Cao, Huazhu Fu, Fahad Shahbaz Khan, Rao Muhammad Anwer, | (参考訳) 最近、SAM(Segment Anything Model)は、様々な下流セグメンテーションタスクにおいて有望なセグメンテーション機能を示した。
しかし、普遍的な医用画像セグメンテーションの文脈では、自然と2D/3Dの医療データ間の領域ギャップによりSAMを直接適用する際、顕著な性能差が存在する。
本稿では,この領域のギャップを効果的に埋めるべく,DB-SAMという二分岐型SAMフレームワークを提案する。
我々の二重ブランチ適応SAMは、ViTブランチと畳み込みブランチの2つのブランチを並列に含む。
ViTブランチは、各凍結されたアテンションブロックの後、学習可能なチャネルアテンションブロックを組み込み、ドメイン固有のローカル特徴をキャプチャする。
一方、畳み込み枝は、入力された医用画像からドメイン固有の浅い特徴を抽出するために軽量な畳み込みブロックを用いる。
クロスブランチ機能融合を実現するために、マスクデコーダ用の2つの分岐の多様な情報を動的に結合する、双方向のクロスアテンションブロックとViT畳み込み融合ブロックを設計する。
様々な3次元および2次元の医用セグメンテーションタスクを用いた大規模医用画像データセットの大規模な実験により,提案したコントリビューションのメリットを明らかにした。
今回提案したDB-SAMは,21次元医用画像分割作業において,最近の医療用SAMアダプタと比較して,絶対的に8.8%向上した。
コードとモデルはhttps://github.com/AlfredQin/DB-SAMで公開されている。
Recently, the Segment Anything Model (SAM) has demonstrated promising segmentation capabilities in a variety of downstream segmentation tasks. However in the context of universal medical image segmentation there exists a notable performance discrepancy when directly applying SAM due to the domain gap between natural and 2D/3D medical data. In this work, we propose a dual-branch adapted SAM framework, named DB-SAM, that strives to effectively bridge this domain gap. Our dual-branch adapted SAM contains two branches in parallel: a ViT branch and a convolution branch. The ViT branch incorporates a learnable channel attention block after each frozen attention block, which captures domain-specific local features. On the other hand, the convolution branch employs a light-weight convolutional block to extract domain-specific shallow features from the input medical image. To perform cross-branch feature fusion, we design a bilateral cross-attention block and a ViT convolution fusion block, which dynamically combine diverse information of two branches for mask decoder. Extensive experiments on large-scale medical image dataset with various 3D and 2D medical segmentation tasks reveal the merits of our proposed contributions. On 21 3D medical image segmentation tasks, our proposed DB-SAM achieves an absolute gain of 8.8%, compared to a recent medical SAM adapter in the literature. The code and model are available at https://github.com/AlfredQin/DB-SAM. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# 機械学習エッジデバイスを用いた高速物体検出
Fast Object Detection with a Machine Learning Edge Device ( http://arxiv.org/abs/2410.04173v1 ) ライセンス: Link先を確認 | Richard C. Rodriguez, Jonah Elijah P. Bardos, | (参考訳) 本研究は、コンピュータビジョンを有する組込みシステムと統合された低コストエッジデバイスを探索し、オブジェクト検出と分類の推論時間と精度の向上を実現する。
本研究の主な目的は、推論時間と低消費電力化の削減と、競争可能な自律型ヒューマノイドロボットの組み込みデバイスの実現、リアルタイム物体認識、シーン理解、視覚ナビゲーション、運動計画、ロボットの自律ナビゲーションのサポートである。
本研究では,中央処理ユニット (CPU) とグラフィカル処理ユニット (GPU) とテンソル処理ユニット (TPU) を比較した。
CPU、GPU、TPUはすべて、機械学習タスクに使用できるプロセッサである。
自律型ヒューマノイドロボットのサポートを目的として,単眼視カメラと立体視機能に有意な差があるか否かを観察する努力が加えられた。
この研究のTPU推論時間はGPUよりも25%の時間短縮であり、CPUに比べて87.5%の時間短縮を反映している。
この論文の多くの情報は、GoogleのCoralブランドであるEdge TPUデバイスの最終選択に寄与している。
Arduino Nano 33 BLE Sense Tiny ML Kitも比較対象とされたが、初期不整合性や研究に時間を要するため、将来の実験でこのキットをレビューする決定が下された。
This machine learning study investigates a lowcost edge device integrated with an embedded system having computer vision and resulting in an improved performance in inferencing time and precision of object detection and classification. A primary aim of this study focused on reducing inferencing time and low-power consumption and to enable an embedded device of a competition-ready autonomous humanoid robot and to support real-time object recognition, scene understanding, visual navigation, motion planning, and autonomous navigation of the robot. This study compares processors for inferencing time performance between a central processing unit (CPU), a graphical processing unit (GPU), and a tensor processing unit (TPU). CPUs, GPUs, and TPUs are all processors that can be used for machine learning tasks. Related to the aim of supporting an autonomous humanoid robot, there was an additional effort to observe whether or not there was a significant difference in using a camera having monocular vision versus stereo vision capability. TPU inference time results for this study reflect a 25% reduction in time over the GPU, and a whopping 87.5% reduction in inference time compared to the CPU. Much information in this paper is contributed to the final selection of Google's Coral brand, Edge TPU device. The Arduino Nano 33 BLE Sense Tiny ML Kit was also considered for comparison but due to initial incompatibilities and in the interest of time to complete this study, a decision was made to review the kit in a future experiment. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# ベクターストロークで絵を描く芸術的肖像
Artistic Portrait Drawing with Vector Strokes ( http://arxiv.org/abs/2410.04182v1 ) ライセンス: Link先を確認 | Yiqi Liang, Ying Liu, Dandan Long, Ruihui Li, | (参考訳) 本稿では,人物の顔画像をベクトル像に変換するVectorPDを提案する。
VectorPDは、ストロークの数を単純に制御することで、異なるレベルの抽象化をサポートする。
ベクトルグラフィックスは異なる形状のプリミティブで構成されているため、複雑な顔の描画によって顔の詳細や構造を正確に表現することは困難である。
これを解決するために、VectorPDは新しい2ラウンド最適化機構を採用している。
まず、顔のキーポイントでストロークを初期化し、CLIPベースのセマンティック・ロスによる基本的な肖像画を生成する。
そして、VGGベースの構造損失を通して顔の構造を完成させ、スケッチの影の詳細を豊かにする新しいクロップベースの影損失を提案し、視覚的に喜ぶ肖像画を完成させる。
定量的および定性的な評価は、VectorPDが生成した肖像画が既存の最先端の手法よりも優れた視覚効果を生み出すことを示した。
In this paper, we present a method, VectorPD, for converting a given human face image into a vector portrait sketch. VectorPD supports different levels of abstraction by simply controlling the number of strokes. Since vector graphics are composed of different shape primitives, it is challenging for rendering complex faces to accurately express facial details and structure. To address this, VectorPD employs a novel two-round optimization mechanism. We first initialize the strokes with facial keypoints, and generate a basic portrait sketch by a CLIP-based Semantic Loss. Then we complete the face structure through VGG-based Structure Loss, and propose a novel Crop-based Shadow Loss to enrich the shadow details of the sketch, achieving a visually pleasing portrait sketch. Quantitative and qualitative evaluations both demonstrate that the portrait sketches generated by VectorPD can produce better visual effects than existing state-of-the-art methods, maintaining as much fidelity as possible at different levels of abstraction. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# 物体選好による形式的概念解析への非単調拡張
Non-monotonic Extensions to Formal Concept Analysis via Object Preferences ( http://arxiv.org/abs/2410.04184v1 ) ライセンス: Link先を確認 | Lucas Carr, Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph, | (参考訳) 形式的概念分析(FCA)は、概念階層を作成するためのアプローチであり、そこでは \textit{concept lattice} が \textit{formal context} から生成される。
すなわち、オブジェクトのセット、$G$、属性のセット、$M$、および$G \times M$のインカデント関係からなるトリプルである。
次に、 \textit{concept} はオブジェクトの集合 (the \textit{extent}) と共有属性の集合 (the \textit{intent}) からなるペアとしてモデル化される。
FCAの含意は、ある属性のセットが別の属性からどのように従うかを記述する。
これらの意味論は古典論理学における論理的帰結とよく似ている。
その意味では、単調な条件を記述する。
本論文の貢献は2つある。
まず、属性の集合間の非単調条件を導入し、オブジェクトの集合に対する優先順位を仮定する。
この条件は、クラウス、リーマン、マギドールによって提案された非単調性(KLM仮定と呼ばれる)の仮定と一致する結果の関係をもたらすことを示す。
我々は、FCAにおける非単調性の強力な特徴付けを、我々の貢献が確立していると論じる。
典型的な概念は、意図がある程度の期待と一致し、例外耐性のある概念の見方を可能にする概念を表す。
この目的のために、すべての典型的な概念の集合が元の概念格子の半格子であることを示す。
この典型的な概念の概念は、さらに KLM スタイルの典型性を FCA に導入し、原型的概念の概念格子を表す代数的構造の開発に基礎を置いている。
Formal Concept Analysis (FCA) is an approach to creating a conceptual hierarchy in which a \textit{concept lattice} is generated from a \textit{formal context}. That is, a triple consisting of a set of objects, $G$, a set of attributes, $M$, and an incidence relation $I$ on $G \times M$. A \textit{concept} is then modelled as a pair consisting of a set of objects (the \textit{extent}), and a set of shared attributes (the \textit{intent}). Implications in FCA describe how one set of attributes follows from another. The semantics of these implications closely resemble that of logical consequence in classical logic. In that sense, it describes a monotonic conditional. The contributions of this paper are two-fold. First, we introduce a non-monotonic conditional between sets of attributes, which assumes a preference over the set of objects. We show that this conditional gives rise to a consequence relation that is consistent with the postulates for non-monotonicty proposed by Kraus, Lehmann, and Magidor (commonly referred to as the KLM postulates). We argue that our contribution establishes a strong characterisation of non-monotonicity in FCA. Typical concepts represent concepts where the intent aligns with expectations from the extent, allowing for an exception-tolerant view of concepts. To this end, we show that the set of all typical concepts is a meet semi-lattice of the original concept lattice. This notion of typical concepts is a further introduction of KLM-style typicality into FCA, and is foundational towards developing an algebraic structure representing a concept lattice of prototypical concepts. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# DiDOTS: 転写音声における認知症難読化のための大規模言語モデルからの知識蒸留
DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech ( http://arxiv.org/abs/2410.04188v1 ) ライセンス: Link先を確認 | Dominika Woszczyk, Soteris Demetriou, | (参考訳) 認知症は世界中の何千万人もの人に影響を及ぼし、2050年までには3倍になると予想されている。
認知症分類の最近の進歩は、敵が影響を受けた個人のプライバシーを侵害し、音声の書き起こしからその繊細な状態を推測することを可能にする。
既存のテキストの難読化手法は認知症には適用されておらず、機密性の高い医療属性の収集が困難である大規模ラベル付きデータセットの可用性に依存している。
本研究では,この研究のギャップを埋め,Large-Language-Models (LLMs) を多種多様なプロンプトデザイン(ゼロショット,少数ショット,知識ベース)で活用し,認知症を音声書き起こしで難易度化することで,上記の課題に対処する。
以上の結果から,LSMは競合法に比べて認知症難治薬として有効であることが示唆された。
しかし、それらは何十億ものパラメータを持ち、訓練、保存、共有を困難にし、また幻覚、拒絶、矛盾する影響に苦しむ脆弱でもある。
さらにこれを緩和するために,新しい手法であるDiDOTSを提案する。
DiDOTSは、教師学生のパラダイムとパラメータ効率の良い微調整を用いて、LLMから知識を抽出する。
DiDOTSは教師のLLMに比べて1桁少ないパラメータを持ち、完全な微調整に比べて3桁少ないパラメータで微調整できる。
評価の結果、従来の作業と比較して、DDOTSは2つのデータセットのプライバシー性能を1.3倍、2.2倍改善したLCMの性能を維持している。
Dementia is a sensitive neurocognitive disorder affecting tens of millions of people worldwide and its cases are expected to triple by 2050. Alarmingly, recent advancements in dementia classification make it possible for adversaries to violate affected individuals' privacy and infer their sensitive condition from speech transcriptions. Existing obfuscation methods in text have never been applied for dementia and depend on the availability of large labeled datasets which are challenging to collect for sensitive medical attributes. In this work, we bridge this research gap and tackle the above issues by leveraging Large-Language-Models (LLMs) with diverse prompt designs (zero-shot, few-shot, and knowledge-based) to obfuscate dementia in speech transcripts. Our evaluation shows that LLMs are more effective dementia obfuscators compared to competing methods. However, they have billions of parameters which renders them hard to train, store and share, and they are also fragile suffering from hallucination, refusal and contradiction effects among others. To further mitigate these, we propose a novel method, DiDOTS. DiDOTS distills knowledge from LLMs using a teacher-student paradigm and parameter-efficient fine-tuning. DiDOTS has one order of magnitude fewer parameters compared to its teacher LLM and can be fine-tuned using three orders of magnitude less parameters compared to full fine-tuning. Our evaluation shows that compared to prior work DiDOTS retains the performance of LLMs achieving 1.3x and 2.2x improvement in privacy performance on two datasets, while humans rate it as better in preserving utility even when compared to state-of-the-art paraphrasing models. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# 大規模言語モデル上でのスケーラブルなジェイルブレイク攻撃に対するタスクオーバーロードのハーネス化
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models ( http://arxiv.org/abs/2410.04190v1 ) ライセンス: Link先を確認 | Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng, | (参考訳) 大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
既存の攻撃方法は、特定のモデルに対して固定的または特別に調整されており、様々なサイズのモデルを攻撃する際の一般化に欠かせない攻撃強度を柔軟に調整できない。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
本手法では,目標命令を提示する前に,LLMをリソース集約型予備タスクであるキャラクタマップのルックアップとデコード処理に係わる。
モデルの処理能力を飽和させることで、後続の命令を処理する際の安全プロトコルのアクティベートを防止する。
現状のLDMに関する大規模な実験により,手動のプロンプト工学を必要とせずに安全対策を回避し,高い成功率を達成できることが実証された。
当社のアプローチは、攻撃強度を定量化し、最適な強度で異なるモデルスケールに適応するスケーラブルな攻撃を提供することを確認した。
LLMの安全性ポリシーは,資源制約の影響を受けやすい可能性が示唆された。
以上の結果から,LLMの安全性設計に重大な脆弱性があることが判明し,資源インテリジェンスを考慮したより堅牢な防衛戦略の必要性が示唆された。
Large Language Models (LLMs) remain vulnerable to jailbreak attacks that bypass their safety mechanisms. Existing attack methods are fixed or specifically tailored for certain models and cannot flexibly adjust attack strength, which is critical for generalization when attacking models of various sizes. We introduce a novel scalable jailbreak attack that preempts the activation of an LLM's safety policies by occupying its computational resources. Our method involves engaging the LLM in a resource-intensive preliminary task - a Character Map lookup and decoding process - before presenting the target instruction. By saturating the model's processing capacity, we prevent the activation of safety protocols when processing the subsequent instruction. Extensive experiments on state-of-the-art LLMs demonstrate that our method achieves a high success rate in bypassing safety measures without requiring gradient access, manual prompt engineering. We verified our approach offers a scalable attack that quantifies attack strength and adapts to different model scales at the optimal strength. We shows safety policies of LLMs might be more susceptible to resource constraints. Our findings reveal a critical vulnerability in current LLM safety designs, highlighting the need for more robust defense strategies that account for resource-intense condition. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# 1対多の知識蒸留による拡散モデルの高速化
Accelerating Diffusion Models with One-to-Many Knowledge Distillation ( http://arxiv.org/abs/2410.04191v1 ) ライセンス: Link先を確認 | Linfeng Zhang, Kaisheng Ma, | (参考訳) 拡散モデルにより画像生成の顕著な進歩が達成されている。
それでも、以前の生成モデルと対照的な場合、拡散モデルはかなりの計算オーバーヘッドに直面し、リアルタイム生成に失敗する。
近年, サンプリング技術の改良, 蒸留技術の改良により, サンプリング工程数を減らし, 拡散モデルの高速化を図っている。
しかし、各時間ステップの計算コストを下げる方法は、まだ探索されていない領域のままである。
拡散モデルが異なる時間ステップで異なる入力分布と特徴分布を示すという事実を観察し、単一教師拡散モデルを複数の学生拡散モデルに蒸留する1対多の知識蒸留(O2MKD)を導入し、各生徒拡散モデルを訓練して、連続時間ステップのサブセットに関する教師の知識を学習する。
CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion 実験の結果, O2MKD は従来の知識蒸留法や高速サンプリング法にも適用可能であることが示された。
コードはGithubでリリースされる。
Significant advancements in image generation have been made with diffusion models. Nevertheless, when contrasted with previous generative models, diffusion models face substantial computational overhead, leading to failure in real-time generation. Recent approaches have aimed to accelerate diffusion models by reducing the number of sampling steps through improved sampling techniques or step distillation. However, the methods to diminish the computational cost for each timestep remain a relatively unexplored area. Observing the fact that diffusion models exhibit varying input distributions and feature distributions at different timesteps, we introduce one-to-many knowledge distillation (O2MKD), which distills a single teacher diffusion model into multiple student diffusion models, where each student diffusion model is trained to learn the teacher's knowledge for a subset of continuous timesteps. Experiments on CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion show that O2MKD can be applied to previous knowledge distillation and fast sampling methods to achieve significant acceleration. Codes will be released in Github. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# パラメトリックテイラー級数に基づく潜在ダイナミクス同定ニューラルネットワーク
Parametric Taylor series based latent dynamics identification neural networks ( http://arxiv.org/abs/2410.04193v1 ) ライセンス: Link先を確認 | Xinlei Lin, Dunhui Xiao, | (参考訳) 数値解法 偏微分方程式 (P-PDE) は非常に実用的だが計算コストが高く、低次モデル (ROM) の開発を推進している。
近年,潜時空間識別技術とディープラーニングアルゴリズム(例えば,オートエンコーダ)を組み合わせる手法は,LaSDI,gLaSDI,GPLaSDIなどの低次元潜時空間における力学系を記述する上で大きな可能性を示している。
本稿では、テイラー級数展開とResNetsに基づく新しいニューラルネットワーク構造を基盤として、非線形力学ニューラルネットワーク P-TLDINets のパラメトリック潜時同定を導入し、縮小された空間力学を管理するODEを学習する。
トレーニングプロセス中、テイラー級数に基づく潜在動的ニューラルネットワーク(TLDNet)と特定方程式を同時にトレーニングし、よりスムーズな潜在空間を生成する。
パラメータ化研究を容易にするために,逆距離重み付け(IDW)補間法に基づくk$-nearest neighbors (KNN)法を導入し,同定されたODE係数を局所情報を用いて予測する。
オートエンコーダに基づく他の潜在力学同定手法と比較して、P-TLDINetはモデルの解釈可能性を維持している。
さらに、明示的なオートエンコーダの構築を回避し、特定のグリッドへの依存を回避し、より軽量な構造を特徴としている。
また、異なるスケールのメッシュを使用することもできる。
P-TLDINetsはGPLaSDIやgLaSDIと比較してトレーニング速度を100倍近く改善し、高忠実度モデルに比べて2\%以下の誤差を維持している。
Numerical solving parameterised partial differential equations (P-PDEs) is highly practical yet computationally expensive, driving the development of reduced-order models (ROMs). Recently, methods that combine latent space identification techniques with deep learning algorithms (e.g., autoencoders) have shown great potential in describing the dynamical system in the lower dimensional latent space, for example, LaSDI, gLaSDI and GPLaSDI. In this paper, a new parametric latent identification of nonlinear dynamics neural networks, P-TLDINets, is introduced, which relies on a novel neural network structure based on Taylor series expansion and ResNets to learn the ODEs that govern the reduced space dynamics. During the training process, Taylor series-based Latent Dynamic Neural Networks (TLDNets) and identified equations are trained simultaneously to generate a smoother latent space. In order to facilitate the parameterised study, a $k$-nearest neighbours (KNN) method based on an inverse distance weighting (IDW) interpolation scheme is introduced to predict the identified ODE coefficients using local information. Compared to other latent dynamics identification methods based on autoencoders, P-TLDINets remain the interpretability of the model. Additionally, it circumvents the building of explicit autoencoders, avoids dependency on specific grids, and features a more lightweight structure, which is easy to train with high generalisation capability and accuracy. Also, it is capable of using different scales of meshes. P-TLDINets improve training speeds nearly hundred times compared to GPLaSDI and gLaSDI, maintaining an $L_2$ error below $2\%$ compared to high-fidelity models. | 翻訳日:2024-11-02 13:41:32 公開日:2024-10-05 |
# 数学的ライブラリ構築のための一貫性のあるオートフォーマル化
Consistent Autoformalization for Constructing Mathematical Libraries ( http://arxiv.org/abs/2410.04194v1 ) ライセンス: Link先を確認 | Lan Zhang, Xin Quan, Andre Freitas, | (参考訳) オートフォーマル化(Autoformalization)は、自然言語で書かれた数学的内容を自動的に形式言語表現に翻訳するタスクである。
形式言語を含む大言語モデル(LLM)の言語解釈能力の増大は、自動形式化の障壁を低くしている。
しかし、LSMだけでは、特にターゲット領域の複雑さと特殊化が増大するにつれて、一貫して確実にオートフォーマル化を行うことができない。
フィールドが大規模数学的ライブラリーに対して体系的に自己形式化を適用する方向に進化するにつれて、構文、用語、意味制御の改善の必要性が高まっている。
本稿では,MS-RAG(Mult-similar search augmented generation),デノナイズステップ(denoising steps),自動誤りフィードバック(Auto-SEF)による自動補正という3つのメカニズムの協調的利用を提案する。
実験的な分析は、異なるモデルにまたがって、これらのメカニズムが、構文的に、用語的に、意味的により一貫性のあるオートフォーマルなライザトン結果を提供できることを示した。
これらのメカニズムは異なるLLMに適用でき、異なるモデルタイプにまたがって改善結果をもたらすことが示されている。
Autoformalization is the task of automatically translating mathematical content written in natural language to a formal language expression. The growing language interpretation capabilities of Large Language Models (LLMs), including in formal languages, are lowering the barriers for autoformalization. However, LLMs alone are not capable of consistently and reliably delivering autoformalization, in particular as the complexity and specialization of the target domain grows. As the field evolves into the direction of systematically applying autoformalization towards large mathematical libraries, the need to improve syntactic, terminological and semantic control increases. This paper proposes the coordinated use of three mechanisms, most-similar retrieval augmented generation (MS-RAG), denoising steps, and auto-correction with syntax error feedback (Auto-SEF) to improve autoformalization quality. The empirical analysis, across different models, demonstrates that these mechanisms can deliver autoformalizaton results which are syntactically, terminologically and semantically more consistent. These mechanisms can be applied across different LLMs and have shown to deliver improve results across different model types. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# フラットヒルベルトベイズ推論による一般化の改善
Improving Generalization with Flat Hilbert Bayesian Inference ( http://arxiv.org/abs/2410.04196v1 ) ライセンス: Link先を確認 | Tuan Truong, Quyen Tran, Quan Pham-Ngoc, Nhat Ho, Dinh Phung, Trung Le, | (参考訳) 本稿では,ベイズ推論の一般化を促進するアルゴリズムであるFlat Hilbert Bayesian Inference (FHBI)を紹介する。
提案手法は, 逆汎関数摂動ステップと再生カーネルヒルベルト空間内の汎関数降下ステップを併用した2段階反復手順を含む。
この方法論は、有限次元ユークリッド空間から無限次元汎函数空間への一般化能力に関する以前の知見を拡張した理論解析によって支持されている。
FHBIの有効性を評価するため,VTAB-1Kベンチマークの7つのベースライン手法を総合的に比較した。
実証実験の結果、FHBIは顕著なマージンでベースラインを一貫して上回り、実用性を強調している。
We introduce Flat Hilbert Bayesian Inference (FHBI), an algorithm designed to enhance generalization in Bayesian inference. Our approach involves an iterative two-step procedure with an adversarial functional perturbation step and a functional descent step within the reproducing kernel Hilbert spaces. This methodology is supported by a theoretical analysis that extends previous findings on generalization ability from finite-dimensional Euclidean spaces to infinite-dimensional functional spaces. To evaluate the effectiveness of FHBI, we conduct comprehensive comparisons against seven baseline methods on the VTAB-1K benchmark, which encompasses 19 diverse datasets across various domains with diverse semantics. Empirical results demonstrate that FHBI consistently outperforms the baselines by notable margins, highlighting its practical efficacy. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# CS4:ストーリー執筆制約数制御による大規模言語モデルの創造性の自動計測
CS4: Measuring the Creativity of Large Language Models Automatically by Controlling the Number of Story-Writing Constraints ( http://arxiv.org/abs/2410.04197v1 ) ライセンス: Link先を確認 | Anirudh Atmakuru, Jatin Nainani, Rohith Siddhartha Reddy Bheemreddy, Anirudh Lakkaraju, Zonghai Yao, Hamed Zamani, Haw-Shiuan Chang, | (参考訳) ストーリーライティングにおける大規模言語モデル(LLM)の創造性を評価するのは難しいのは、LCMの生成したストーリーは創造的に見えるが、巨大でプロプライエタリなトレーニングコーパスにある既存のストーリーと非常によく似ているためである。
CS4 ($\mathbf{C}$omparing the $\mathbf{S}$kill of $\mathbf{C}$reating $\mathbf{S}$tories by $\mathbf{C}$ontrolling the $\mathbf{S}$ynthesized $\mathbf{C}$onstraint $\mathbf{S}$pecificity。
即時要求/制約の数を増やすことで、迅速な特異性を高め、トレーニングデータの中で高品質な物語をリテリングすることを妨げることができる。
その結果,CS4 は人間のアノテーションを使わずに LLM の創造性を間接的に測定する権限を与えてくれる。
LLaMA, Gemma, およびMistralに関する実験は, LLMが高度に特定のプロンプトを扱う際に直面する創造的課題を浮き彫りにするだけでなく, 異なる LLM が異なる制約数の下で非常に異なる性能を示し, モデルの指示追従能力と物語コヒーレンスとのバランスを異にすることを示した。
さらに、OLMoに関する我々の実験は、LHF(Learning from Human Feedback)は、LLMがトレーニングデータからより良いストーリーを選択するのに役立つことを示唆しています。
ベンチマークはhttps://github.com/anirudhlakkaraju/cs4_benchmarkで公開されている。
Evaluating the creativity of large language models (LLMs) in story writing is difficult because LLM-generated stories could seemingly look creative but be very similar to some existing stories in their huge and proprietary training corpus. To overcome this challenge, we introduce a novel benchmark dataset with varying levels of prompt specificity: CS4 ($\mathbf{C}$omparing the $\mathbf{S}$kill of $\mathbf{C}$reating $\mathbf{S}$tories by $\mathbf{C}$ontrolling the $\mathbf{S}$ynthesized $\mathbf{C}$onstraint $\mathbf{S}$pecificity). By increasing the number of requirements/constraints in the prompt, we can increase the prompt specificity and hinder LLMs from retelling high-quality narratives in their training data. Consequently, CS4 empowers us to indirectly measure the LLMs' creativity without human annotations. Our experiments on LLaMA, Gemma, and Mistral not only highlight the creativity challenges LLMs face when dealing with highly specific prompts but also reveal that different LLMs perform very differently under different numbers of constraints and achieve different balances between the model's instruction-following ability and narrative coherence. Additionally, our experiments on OLMo suggest that Learning from Human Feedback (LHF) can help LLMs select better stories from their training data but has limited influence in boosting LLMs' ability to produce creative stories that are unseen in the training corpora. The benchmark is released at https://github.com/anirudhlakkaraju/cs4_benchmark. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# IT$^3$: Idempotent Test-Time Training
IT$^3$: Idempotent Test-Time Training ( http://arxiv.org/abs/2410.04201v1 ) ライセンス: Link先を確認 | Nikita Durasov, Assaf Shocher, Doruk Oner, Gal Chechik, Alexei A. Efros, Pascal Fua, | (参考訳) 本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training(IT$^3$)を紹介する。
教師付き学習手法は、列車とテストの分布の一致を前提としているが、現実世界にデプロイされる機械学習システムでは、これが稀である。
テストタイムトレーニング(TTT)アプローチは、推論中にモデルを適用することでこの問題に対処するが、ドメイン固有の補助タスクによって制限される。
IT$^3$はイデペンデンスの普遍性に基づいている。
一等作用素は、初期アプリケーションを超えて結果を変更することなく逐次適用できる演算子で、$f(f(x))=f(x)$である。
トレーニング時に、モデルは入力$x$と他の信号と共に入力$y$または中立的な"Don't know"信号$0$とすることができる。
テスト時には、追加の信号は0ドルにしかならない。
モデルを逐次適用する場合、まず$y_0 = f(x, 0)$ と $y_1 = f(x, y_0)$ と予測すると、$y_0$ と $y_1$ の距離は確実性を測り、高ければ分布外入力 $x$ を示す。
この距離を$||f(x, f(x, 0)) - f(x, 0)||$ と表すことができる。
この目的を慎重に最適化することで、$f(x,\cdot)$を等しく訓練し、入力の内部表現をトレーニング分布に投影する。
本稿では, 画像分類の劣化, 空力予測, 欠落情報付き表層データ, 顔からの年齢予測, 大規模空中写真セグメンテーションなど, 様々なタスクにまたがるアプローチの汎用性を実証する。
さらに、これらのタスクは、MPP、CNN、GNNなどの異なるアーキテクチャにまたがる。
This paper introduces Idempotent Test-Time Training (IT$^3$), a novel approach to addressing the challenge of distribution shift. While supervised-learning methods assume matching train and test distributions, this is rarely the case for machine learning systems deployed in the real world. Test-Time Training (TTT) approaches address this by adapting models during inference, but they are limited by a domain specific auxiliary task. IT$^3$ is based on the universal property of idempotence. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, that is $f(f(x))=f(x)$. At training, the model receives an input $x$ along with another signal that can either be the ground truth label $y$ or a neutral "don't know" signal $0$. At test time, the additional signal can only be $0$. When sequentially applying the model, first predicting $y_0 = f(x, 0)$ and then $y_1 = f(x, y_0)$, the distance between $y_0$ and $y_1$ measures certainty and indicates out-of-distribution input $x$ if high. We use this distance, that can be expressed as $||f(x, f(x, 0)) - f(x, 0)||$ as our TTT loss during inference. By carefully optimizing this objective, we effectively train $f(x,\cdot)$ to be idempotent, projecting the internal representation of the input onto the training distribution. We demonstrate the versatility of our approach across various tasks, including corrupted image classification, aerodynamic predictions, tabular data with missing information, age prediction from face, and large-scale aerial photo segmentation. Moreover, these tasks span different architectures such as MLPs, CNNs, and GNNs. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# ディープトランスファー学習に基づく学術論文のピアレビューアグリゲーションとメタレビュー生成
Deep Transfer Learning Based Peer Review Aggregation and Meta-review Generation for Scientific Articles ( http://arxiv.org/abs/2410.04202v1 ) ライセンス: Link先を確認 | Md. Tarek Hasan, Mohammad Nazmush Shamael, H. M. Mutasim Billah, Arifa Akter, Md Al Emran Hossain, Sumayra Islam, Salekul Islam, Swakkhar Shatabda, | (参考訳) ピアレビュー(Peer Review)とは、1つ以上の専門家による原稿の品質評価である。
論文は著者によって科学的な会場に提出され、これらの論文は仲間や他の著者によってレビューされなければならない。
メタリビューアはその後、ピアレビューを集め、評価し、各原稿に対してメタレビューと決定を作成する。
これらの会場に提出された論文の数は近年増加しており、メタレビュー作成の第一の目標である品質を維持しつつ、メタレビュー者がこれらのピア評価を時間とともに収集することはますます困難になっている。
本稿では,メタリビューアが直面する2つのピアレビューアグリゲーション課題に対処する。
まず,従来の機械学習アルゴリズムを適用し,受理決定のプロセスを自動化することを提案する。
我々は、自然言語テキストで書かれたレビューを処理するために、事前訓練された単語埋め込み技術BERTを使用します。
メタレビュー生成では,T5モデルに基づく移動学習モデルを提案する。
実験の結果,BERTは他の単語埋め込み手法よりも有効であり,推奨スコアは受容決定予測の重要な特徴であることがわかった。
さらに、微調整されたT5は他の推論モデルよりも優れていることが判明した。
提案システムは,メタレビューを作成し,論文が受け入れられるべきか否かを判断するために,ピアレビューやその他の関連する特徴を入力として利用する。
さらに,実験結果から,タスクの受理決定予測システムは既存モデルよりも優れており,メタレビュー生成タスクは既存モデルと比較して有意に改善されたスコアを示していることがわかった。
統計的テストでは、Wilcoxon符号ランクテストを用いて、ペア観測間で統計的に有意な改善があるかどうかを評価する。
Peer review is the quality assessment of a manuscript by one or more peer experts. Papers are submitted by the authors to scientific venues, and these papers must be reviewed by peers or other authors. The meta-reviewers then gather the peer reviews, assess them, and create a meta-review and decision for each manuscript. As the number of papers submitted to these venues has grown in recent years, it becomes increasingly challenging for meta-reviewers to collect these peer evaluations on time while still maintaining the quality that is the primary goal of meta-review creation. In this paper, we address two peer review aggregation challenges a meta-reviewer faces: paper acceptance decision-making and meta-review generation. Firstly, we propose to automate the process of acceptance decision prediction by applying traditional machine learning algorithms. We use pre-trained word embedding techniques BERT to process the reviews written in natural language text. For the meta-review generation, we propose a transfer learning model based on the T5 model. Experimental results show that BERT is more effective than the other word embedding techniques, and the recommendation score is an important feature for the acceptance decision prediction. In addition, we figure out that fine-tuned T5 outperforms other inference models. Our proposed system takes peer reviews and other relevant features as input to produce a meta-review and make a judgment on whether or not the paper should be accepted. In addition, experimental results show that the acceptance decision prediction system of our task outperforms the existing models, and the meta-review generation task shows significantly improved scores compared to the existing models. For the statistical test, we utilize the Wilcoxon signed-rank test to assess whether there is a statistically significant improvement between paired observations. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# RainbowPO: 優先度最適化の改善を統合する統一フレームワーク
RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization ( http://arxiv.org/abs/2410.04203v1 ) ライセンス: Link先を確認 | Hanyang Zhao, Genta Indra Winata, Anirban Das, Shi-Xiong Zhang, David D. Yao, Wenpin Tang, Sambit Sahu, | (参考訳) 近年,DPO(Direct Preference Optimization)ファミリの拡張として,多数の選好最適化アルゴリズムが導入されている。
これらの手法はモデルと人間の好みを一致させるのに成功しているが、追加のコンポーネントの貢献について理解の欠如がある。
さらに、公平で一貫した比較は少ないため、どのコンポーネントが真に下流のパフォーマンスを向上させるかを識別することは困難である。
本研究では,キーコンポーネントを7方向に分類することで,既存のDPO手法の有効性を実証する統合フレームワークであるRainbowPOを提案する。
これらのコンポーネントを単一の凝集目標に統合し、各要素のパフォーマンスを向上させる。
広範な実験を通して、RainbowPOは既存のDPOのバリエーションよりも優れていることを示した。
さらに、新しいDPO手法の開発を研究者に指導し、実践者を支援するための洞察を提供する。
Recently, numerous preference optimization algorithms have been introduced as extensions to the Direct Preference Optimization (DPO) family. While these methods have successfully aligned models with human preferences, there is a lack of understanding regarding the contributions of their additional components. Moreover, fair and consistent comparisons are scarce, making it difficult to discern which components genuinely enhance downstream performance. In this work, we propose RainbowPO, a unified framework that demystifies the effectiveness of existing DPO methods by categorizing their key components into seven broad directions. We integrate these components into a single cohesive objective, enhancing the performance of each individual element. Through extensive experiments, we demonstrate that RainbowPO outperforms existing DPO variants. Additionally, we provide insights to guide researchers in developing new DPO methods and assist practitioners in their implementations. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# 多体ダイナミクスのシミュレートのためのトランケートガウス基底アプローチ
Truncated Gaussian basis approach for simulating many-body dynamics ( http://arxiv.org/abs/2410.04204v1 ) ライセンス: Link先を確認 | Nico Albert, Yueshui Zhang, Hong-Hao Tu, | (参考訳) 本稿では,量子多体系の力学をシミュレーションするためのTGBA法を提案する。
このアプローチは、フェルミオンガウス状態にまたがる縮小部分空間内で有効ハミルトニアンを構築し、近似固有状態と固有エネルギーを得るために対角化する。
対称性を利用して並列計算を行い、より大きなサイズでシステムをシミュレートすることができる。
例えば、動的構造因子を計算し、「`$E_8$ magnet''」として知られる非可積分量子イジング鎖のクエンチダイナミクスを研究する。
動的構造因子によって計算された質量比は、ザモロドチコフの分析的予測とよく一致している。
クエンチ力学では, 切り離された部分空間における時間発展波動関数は, 時間的ダイナミクスのシミュレーションを容易にする。
We propose a Truncated Gaussian Basis Approach (TGBA) for simulating the dynamics of quantum many-body systems. The approach constructs an effective Hamiltonian within a reduced subspace, spanned by fermionic Gaussian states, and diagonalizes it to obtain approximate eigenstates and eigenenergies. Symmetries can be exploited to perform parallel computation, enabling to simulate systems with much larger sizes. As an example, we compute the dynamic structure factor and study quench dynamics in a non-integrable quantum Ising chain, known as ``$E_8$ magnet''. The mass ratios calculated through the dynamic structure factor show excellent agreement with Zamolodchikov's analytical predictions. For quench dynamics we observe that time-evolving wave functions in the truncated subspace facilitates the simulation of long-time dynamics. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# ディープフェイク検出における超解法攻撃の強度と弱さの探索
Exploring Strengths and Weaknesses of Super-Resolution Attack in Deepfake Detection ( http://arxiv.org/abs/2410.04205v1 ) ライセンス: Link先を確認 | Davide Alessandro Coccomini, Roberto Caldelli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato, | (参考訳) 画像操作は急速に進化しており、現実を曲げるために使用できる信頼できるコンテンツを作成することができる。
ディープフェイク検出器の結果は有望だが、ディープフェイクは敵の攻撃によってさらに複雑に検出できる。
彼らはさらに画像を操作して、ディープフェイクのアーティファクトをカモフラージュしたり、イメージがプリスタントに見えるように信号を挿入したりすることを目指している。
本稿では,様々な超解像技術に基づく超解像攻撃の可能性と,多かれ少なかれ強度の深いディープフェイク検出器の性能に影響を及ぼすスケールの違いについて検討する。
また、この攻撃がより多様なデータセットに与える影響を評価し、この超解像プロセスがディープフェイク生成モデルによって導入されたアーティファクトを隠蔽するのに有効であるが、完全に合成された画像に含まれる痕跡を隠蔽するのに失敗することを発見した。
最後に、このような攻撃に対するロバスト性を改善するため、検出器のトレーニングプロセスにいくつかの変更を加えることを提案する。
Image manipulation is rapidly evolving, allowing the creation of credible content that can be used to bend reality. Although the results of deepfake detectors are promising, deepfakes can be made even more complicated to detect through adversarial attacks. They aim to further manipulate the image to camouflage deepfakes' artifacts or to insert signals making the image appear pristine. In this paper, we further explore the potential of super-resolution attacks based on different super-resolution techniques and with different scales that can impact the performance of deepfake detectors with more or less intensity. We also evaluated the impact of the attack on more diverse datasets discovering that the super-resolution process is effective in hiding the artifacts introduced by deepfake generation models but fails in hiding the traces contained in fully synthetic images. Finally, we propose some changes to the detectors' training process to improve their robustness to this kind of attack. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# 機械学習による視線追跡による時間的ストレスタスク性能に及ぼす背景雑音の影響評価
Assessing the Impact of Disorganized Background Noise on Timed Stress Task Performance Through Attention Using Machine-Learning Based Eye-Tracking Techniques ( http://arxiv.org/abs/2410.04208v1 ) ライセンス: Link先を確認 | Hubert Huang, Jeffrey Huang, | (参考訳) 騒音汚染は都市化とともに高まっている。
文献によると、無秩序な背景雑音は注意を減らせる。
学生の学業成績を評価する上で,時間的ストレス課題である時間的テストがますます重要になっている。
しかし, 背景雑音が時間的ストレスタスクのパフォーマンスに与える影響について, 注意を喚起することによる研究は不十分であり, 本研究はそれに対処することを目的としている。
紙をベースとしたSAT算定試験は2回実施され,1回は無音,1回は会話背景雑音,2回は交通背景雑音が出現した。
注意は、dLibの機械学習顔検出モデルによる目印を用いて測定される点滅率の増加に起因する。
まず、背景雑音が注意とパフォーマンスを損なうことを確認する。
瞬き率による注意は、ストレスタスク性能の指標として確立される。
第2に、背景雑音による点滅率の上昇は、点滅率の低下と性能の相違がみられ、ノイズが注意に与える影響の自己知覚と関連している可能性が示唆された。
第3に、ケーススタディを用いて、ADHDの学生は、バックグラウンドノイズからパフォーマンスと注意を向上していることがわかった。
第4に、どちらのグループも同様の点滅率で始まったが、ノイズにさらされたグループは、終端付近での点滅率を著しく増加させ、ノイズが時間の経過とともに注意を減少させることが示唆された。
学校は通常、ストレスの時間的タスクに対して静かな設定を提供するが、この研究は、騒音が彼らにどのように影響するかに基づいて、生徒にパーソナライズされた治療を推奨している。
将来の研究は、異なる注意指標を用いて、この研究の発見を統合したり、異なる背景雑音でこの研究を行うことができる。
Noise pollution has been rising alongside urbanization. Literature shows that disorganized background noise decreases attention. Timed testing, an attention-demanding stress task, has become increasingly important in assessing students' academic performance. However, there is insufficient research on how background noise affects performance in timed stress tasks by impacting attention, which this study aims to address. The paper-based SAT math test under increased time pressure was administered twice: once in silence and once with conversational and traffic background noise. Attention is negatively attributed to increasing blink rate, measured using eye landmarks from dLib's machine-learning facial-detection model. First, the study affirms that background noise detriments attention and performance. Attention, through blink rate, is established as an indicator of stress task performance. Second, the study finds that participants whose blink rates increased due to background noise differed in performance compared to those whose blink rates decreased, possibly correlating with their self-perception of noise's impact on attention. Third, using a case study, the study finds that a student with ADHD had enhanced performance and attention from background noise. Fourth, the study finds that although both groups began with similar blink rates, the group exposed to noise had significantly increased blink rate near the end, indicating that noise reduces attention over time. While schools can generally provide quiet settings for timed stress tasks, the study recommends personalized treatments for students based on how noise affects them. Future research can use different attention indices to consolidate this study's findings or conduct this study with different background noises. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# 関数ホモトピー: LLM ジェイルブレイク攻撃に対する連続パラメータによる平滑な離散最適化
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks ( http://arxiv.org/abs/2410.04234v1 ) ライセンス: Link先を確認 | Zi Wang, Divyam Anshumaan, Ashish Hooda, Yudong Chen, Somesh Jha, | (参考訳) 最適化手法は、望ましくないモデル応答を特定し緩和するためにディープラーニングに広く用いられている。
勾配に基づく手法は画像モデルに有効であることが証明されているが、言語モデルへの応用は入力空間の離散的な性質によって妨げられている。
本研究は,モデル学習と入力生成の関数的双対性を生かした,新しい最適化手法である \emph{functional homotopy} 法を提案する。
一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。
Llama-2 や Llama-3 のような確立された安全なオープンソースモデルを回避するために,既存の手法よりも 20 %~ 30 % の成果率向上を実現した。
Optimization methods are widely employed in deep learning to identify and mitigate undesired model responses. While gradient-based techniques have proven effective for image models, their application to language models is hindered by the discrete nature of the input space. This study introduces a novel optimization approach, termed the \emph{functional homotopy} method, which leverages the functional duality between model training and input generation. By constructing a series of easy-to-hard optimization problems, we iteratively solve these problems using principles derived from established homotopy methods. We apply this approach to jailbreak attack synthesis for large language models (LLMs), achieving a $20\%-30\%$ improvement in success rate over existing methods in circumventing established safe open-source models such as Llama-2 and Llama-3. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-05 |
# 変圧器用等価ニューラルネットワーク
Equivariant Neural Functional Networks for Transformers ( http://arxiv.org/abs/2410.04209v1 ) ライセンス: Link先を確認 | Viet-Hoang Tran, Thieu N. Vo, An Nguyen The, Tho Tran Huu, Minh-Khoi Nguyen-Nhat, Thanh Tran, Duy-Tung Pham, Tan Minh Nguyen, | (参考訳) 本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークであり、学習可能なオプティマイザ、暗黙的なデータ表現、ウェイト編集といったタスクに有用であることが証明されている。
NFN は MLP や CNN 向けに広く開発されているが、現代のディープラーニングにおいてトランスフォーマーの重要性にもかかわらず、トランスフォーマーの設計に先行する作業は行われていない。
本稿では, 変圧器のNFNを系統的に研究することで, このギャップに対処することを目的とする。
まず、重みの最大対称群と、マルチヘッドアテンションモジュールの2組のハイパーパラメータが同じ関数を定義する必要十分条件を決定する。
次に、変換器アーキテクチャの重み空間とその関連する群作用を定義し、変換器におけるNFNの設計原理を導出する。
これらに基づいて、この群作用の下で同変であるNFNであるTransformer-NFNを導入する。
さらに、2つの異なるタスクでトレーニングされた125,000以上のTransformerモデルチェックポイントのデータセットをリリースし、Transformer-NFNを評価するためのベンチマークを提供し、Transformerトレーニングとパフォーマンスに関するさらなる研究を奨励する。
This paper systematically explores neural functional networks (NFN) for transformer architectures. NFN are specialized neural networks that treat the weights, gradients, or sparsity patterns of a deep neural network (DNN) as input data and have proven valuable for tasks such as learnable optimizers, implicit data representations, and weight editing. While NFN have been extensively developed for MLP and CNN, no prior work has addressed their design for transformers, despite the importance of transformers in modern deep learning. This paper aims to address this gap by providing a systematic study of NFN for transformers. We first determine the maximal symmetric group of the weights in a multi-head attention module as well as a necessary and sufficient condition under which two sets of hyperparameters of the multi-head attention module define the same function. We then define the weight space of transformer architectures and its associated group action, which leads to the design principles for NFN in transformers. Based on these, we introduce Transformer-NFN, an NFN that is equivariant under this group action. Additionally, we release a dataset of more than 125,000 Transformers model checkpoints trained on two datasets with two different tasks, providing a benchmark for evaluating Transformer-NFN and encouraging further research on transformer training and performance. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# ファインチューニングとコンテキスト長拡張のための相関認識の選択とマージ注意
Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension ( http://arxiv.org/abs/2410.04211v1 ) ライセンス: Link先を確認 | Ning Wang, Zekun Li, Tongxin Bai, Guoqi Li, | (参考訳) 長いシーケンスのモデリングは、様々な大規模モデルにとって重要であるが、既存のアーキテクチャを拡張して長いシーケンスを扱うことは、重要な技術的および資源的課題である。
本稿では,他の優れた手法と比較して計算資源を削減し,微調整時間を短縮した大規模言語モデルにおける文脈長の拡張を可能にする,効率的で柔軟な注目アーキテクチャを提案する。
具体的には,効率的なスパースアテンションを促進するために,相関認識の選択とマージ機構を導入する。
また,位置エンコーディングを含む新しいデータ拡張手法を提案し,未知の位置への一般化を促進させる。
1つのA100を用いて、シーケンス長32KのLlama2-7Bを微調整する。
第2に,事前学習,微調整,推論の各フェーズにわたって,コンテキスト長を拡張可能な包括的手法を提案する。
事前学習中、注意機構はトークン選択時に部分的に翻訳不変性を損なうため、選択したトークンにのみ位置エンコーディングを適用する。
このアプローチは比較的高い性能と重要な外挿機能を実現する。
微調整には,Cyclic,Randomly Truncated,Dynamically Growing NTK Positional Embedding (CRD NTK)を導入する。
この設計により、16Kのシーケンス長しか持たない微調整が可能となり、Llama2-7BやMistral-7Bといったモデルでは、1Mまでのコンテキスト長や任意の長さの推論が可能になった。
提案手法は,コンテキスト長4Mのパスキータスクにおいて100倍の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
これは、競争力のあるパフォーマンスを保ちながら、従来のフルアテンションメカニズムと比較して、少なくとも64倍のリソース要求の削減を意味します。
Modeling long sequences is crucial for various large-scale models; however, extending existing architectures to handle longer sequences presents significant technical and resource challenges. In this paper, we propose an efficient and flexible attention architecture that enables the extension of context lengths in large language models with reduced computational resources and fine-tuning time compared to other excellent methods. Specifically, we introduce correlation-aware selection and merging mechanisms to facilitate efficient sparse attention. In addition, we also propose a novel data augmentation technique involving positional encodings to enhance generalization to unseen positions. The results are as follows: First, using a single A100, we achieve fine-tuning on Llama2-7B with a sequence length of 32K, which is more efficient than other methods that rely on subsets for regression. Second, we present a comprehensive method for extending context lengths across the pre-training, fine-tuning, and inference phases. During pre-training, our attention mechanism partially breaks translation invariance during token selection, so we apply positional encodings only to the selected tokens. This approach achieves relatively high performance and significant extrapolation capabilities. For fine-tuning, we introduce Cyclic, Randomly Truncated, and Dynamically Growing NTK Positional Embedding (CRD NTK). This design allows fine-tuning with a sequence length of only 16K, enabling models such as Llama2-7B and Mistral-7B to perform inference with context lengths of up to 1M or even arbitrary lengths. Our method achieves 100\% accuracy on the passkey task with a context length of 4M and maintains stable perplexity at a 1M context length. This represents at least a 64-fold reduction in resource requirements compared to traditional full-attention mechanisms, while still achieving competitive performance. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 等変多項式関数ネットワーク
Equivariant Polynomial Functional Networks ( http://arxiv.org/abs/2410.04213v1 ) ライセンス: Link先を確認 | Thieu N. Vo, Viet-Hoang Tran, Tho Tran Huu, An Nguyen The, Thanh Tran, Minh-Khoi Nguyen-Nhat, Duy-Tung Pham, Tan Minh Nguyen, | (参考訳) ニューラルネットワーク(NFN)は、暗黙の表現から情報を抽出し、ネットワークの重みを編集し、ポリシーを評価するなど、幅広い応用により、関心が高まっている。
NFNの鍵となる設計原理は、入力ニューラルネットワークのコネクショナリスト構造に固有の置換とスケーリングの対称性に固執することである。
近年のNFNは、グラフベースのメッセージパッシング機構またはパラメータ共有機構に基づいて、置換とスケーリングの等式が提案されている。
しかし、グラフベースの同変NFNは高いメモリ消費と長い実行時間に悩まされる。
一方、等変線形層上に構築されたパラメータ共有型NFNは、メモリ消費の低減と実行時間の高速化を図っているが、入力ニューラルネットワークの対称群が大きいため、その表現性は制限されている。
表現性を維持しながら低メモリ消費と実行時間を維持できる置換およびスケーリング同変NFNを設計するという課題は未解決のままである。
本稿では, MAGEP-NFN (Monomial mAtrix Group Equivariant Polynomial NFN) を開発した新しい手法を提案する。
提案手法はパラメータ共有機構に従うが,入力重みの多項式として表される非線形同変層を構築することで,従来の研究と異なる。
この多項式定式化により、異なる入力隠蔽層からの重み関係を付加し、メモリ消費と実行時間を低く保ちながらモデルの表現性を高め、上記の課題に対処することができる。
我々は、MAGEP-NFNが既存のベースラインと比較して、競争性能と効率を達成することを示す実証的な証拠を提供する。
Neural Functional Networks (NFNs) have gained increasing interest due to their wide range of applications, including extracting information from implicit representations of data, editing network weights, and evaluating policies. A key design principle of NFNs is their adherence to the permutation and scaling symmetries inherent in the connectionist structure of the input neural networks. Recent NFNs have been proposed with permutation and scaling equivariance based on either graph-based message-passing mechanisms or parameter-sharing mechanisms. However, graph-based equivariant NFNs suffer from high memory consumption and long running times. On the other hand, parameter-sharing-based NFNs built upon equivariant linear layers exhibit lower memory consumption and faster running time, yet their expressivity is limited due to the large size of the symmetric group of the input neural networks. The challenge of designing a permutation and scaling equivariant NFN that maintains low memory consumption and running time while preserving expressivity remains unresolved. In this paper, we propose a novel solution with the development of MAGEP-NFN (Monomial mAtrix Group Equivariant Polynomial NFN). Our approach follows the parameter-sharing mechanism but differs from previous works by constructing a nonlinear equivariant layer represented as a polynomial in the input weights. This polynomial formulation enables us to incorporate additional relationships between weights from different input hidden layers, enhancing the model's expressivity while keeping memory consumption and running time low, thereby addressing the aforementioned challenge. We provide empirical evidence demonstrating that MAGEP-NFN achieves competitive performance and efficiency compared to existing baselines. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 重みの少ない三進法典の一類
A class of ternary codes with few weights ( http://arxiv.org/abs/2410.04216v1 ) ライセンス: Link先を確認 | Kaimin Cheng, | (参考訳) $\ell^m$ を素数 $\ell$ が 3$ より大きく、$m$ を正の整数とし、$$$ が原始根モジュラーロ $2\ell^m$ とする。
$\mathbb{F}_3$ を位数 3$ の有限体とし、$\mathbb{F}$ を $\ell^{m-1}(\ell-1)$-th extension field of $\mathbb{F}_3$ とする。
注記: $\text{Tr}$ 絶対トレース写像は $\mathbb{F}$ から $\mathbb{F}_3$ へ。
任意の$\alpha \in \mathbb{F}_3$ および $\beta \in\mathbb{F}$ に対して、$D$ を $\mathbb{F}$ の 0 でない解の集合とし、方程式 $\text{Tr}(x^{\frac{q-1}{2\ell^m}} + \beta x) = \alpha$ とする。
本稿では、$$\mathcal{C}$ of length $n$ := \{(\text{Tr}(d_1x), \text{Tr}(d_2x), \dots, \text{Tr}(d_nx)) : x \in \mathbb{F}\}$を、$D = \{d_1, d_2, \dots, d_n\}$で書き直すときの3次コード$\mathcal{C}$について検討する。
指数和、ヴェイユ境界および組合せ技法の明示的な評価に関する最近の結果を用いて、符号のハミング重み分布を$\mathcal{C}$で決定する。
さらに、$\alpha = \beta =0$ のとき、$\mathcal{C}$ の双対符号はハミング境界に関して最適であることを示す。
Let $\ell^m$ be a power with $\ell$ a prime greater than $3$ and $m$ a positive integer such that $3$ is a primitive root modulo $2\ell^m$. Let $\mathbb{F}_3$ be the finite field of order $3$, and let $\mathbb{F}$ be the $\ell^{m-1}(\ell-1)$-th extension field of $\mathbb{F}_3$. Denote by $\text{Tr}$ the absolute trace map from $\mathbb{F}$ to $\mathbb{F}_3$. For any $\alpha \in \mathbb{F}_3$ and $\beta \in\mathbb{F}$, let $D$ be the set of nonzero solutions in $\mathbb{F}$ to the equation $\text{Tr}(x^{\frac{q-1}{2\ell^m}} + \beta x) = \alpha$. In this paper, we investigate a ternary code $\mathcal{C}$ of length $n$, defined by $\mathcal{C} := \{(\text{Tr}(d_1x), \text{Tr}(d_2x), \dots, \text{Tr}(d_nx)) : x \in \mathbb{F}\}$ when we rewrite $D = \{d_1, d_2, \dots, d_n\}$. Using recent results on explicit evaluations of exponential sums, the Weil bound, and combinatorial techniques, we determine the Hamming weight distribution of the code $\mathcal{C}$. Furthermore, we show that when $\alpha = \beta =0$, the dual code of $\mathcal{C}$ is optimal with respect to the Hamming bound. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 量子信号処理回路を組み合わせた量子コルモゴロフ・アルノルドネットワーク
Quantum Kolmogorov-Arnold networks by combining quantum signal processing circuits ( http://arxiv.org/abs/2410.04218v1 ) ライセンス: Link先を確認 | Ammar Daskin, | (参考訳) 本稿では,量子信号処理回路をレイヤに簡単に組み合わせることで,量子コンピュータ上でのkanの等価実装が可能であることを示す。
これにより、量子コンピュータへのkanの応用のための強力で堅牢なパスが提供される。
In this paper, we show that an equivalent implementation of KAN can be done on quantum computers by simply combining quantum signal processing circuits in layers. This provides a powerful and robust path for the applications of KAN on quantum computers. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# TANGO:階層型オーディオモーション埋め込みと拡散補間による共同音声ジェスチャービデオ再生
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation ( http://arxiv.org/abs/2410.04221v1 ) ライセンス: Link先を確認 | Haiyang Liu, Xingchao Yang, Tomoya Akiyama, Yuantian Huang, Qiaoge Li, Shigeru Kuriyama, Takafumi Taketomi, | (参考訳) TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
数分間の単一話者参照ビデオとターゲット音声が与えられたTANGOは、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
TANGOはGesture Video Reenactment(GVR)上に構築されており、ビデオフレームをノードとして表現し、エッジとして有効な遷移を表現して、有向グラフ構造を使用してビデオクリップを分割して検索する。
我々は、GVRの2つの重要な制限、すなわち、GAN生成トランジションフレームにおけるオーディオモーションのずれと視覚的アーティファクトに対処する。
特に
i) モーダルアライメントを改善するために, 遅延特徴距離を用いたジェスチャーの検索を提案する。
音声音声とジェスチャー動作の関係を効果的にモデル化するために,階層的な関節埋め込み空間(AuMoCLIP)を実装した。
(II) 拡散モデルを導入し, 高品質な遷移フレームを生成する。
我々の拡散モデルであるACInterpは、AnimateAnyone上に構築されており、生成されたビデオと参照ビデオ間の外観整合性を維持するために、参照モーションモジュールとホモグラフィ背景フローを含む。
これらのコンポーネントをグラフベースの検索フレームワークに統合することにより、TANGOはリアルでオーディオ同期化された動画を確実に生成し、既存の生成および検索方法よりも優れている。
我々のコードと事前訓練済みモデルは以下の通りである。
We present TANGO, a framework for generating co-speech body-gesture videos. Given a few-minute, single-speaker reference video and target speech audio, TANGO produces high-fidelity videos with synchronized body gestures. TANGO builds on Gesture Video Reenactment (GVR), which splits and retrieves video clips using a directed graph structure - representing video frames as nodes and valid transitions as edges. We address two key limitations of GVR: audio-motion misalignment and visual artifacts in GAN-generated transition frames. In particular, (i) we propose retrieving gestures using latent feature distance to improve cross-modal alignment. To ensure the latent features could effectively model the relationship between speech audio and gesture motion, we implement a hierarchical joint embedding space (AuMoCLIP); (ii) we introduce the diffusion-based model to generate high-quality transition frames. Our diffusion model, Appearance Consistent Interpolation (ACInterp), is built upon AnimateAnyone and includes a reference motion module and homography background flow to preserve appearance consistency between generated and reference videos. By integrating these components into the graph-based retrieval framework, TANGO reliably produces realistic, audio-synchronized videos and outperforms all existing generative and retrieval methods. Our codes and pretrained models are available: \url{https://pantomatrix.github.io/TANGO/} | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 再合成計画を用いた逆分子設計のための多モーダル大言語モデル
Multimodal Large Language Models for Inverse Molecular Design with Retrosynthetic Planning ( http://arxiv.org/abs/2410.04223v1 ) ライセンス: Link先を確認 | Gang Liu, Michael Sun, Wojciech Matusik, Meng Jiang, Jie Chen, | (参考訳) 大きな言語モデル(LLM)は統合されたイメージを持っているが、それらをグラフに適応させることは依然として困難であり、材料や薬物設計における応用を制限している。
この難しさは、テキストやグラフ間のコヒーレントな自己回帰生成の必要性に起因している。
そこで本研究では,テキストとグラフ生成をインターリーブ可能な最初のマルチモーダルLCMであるLlamoleを導入し,逆合成計画による分子逆設計を実現する。
Llamole は基本 LLM と Graph Diffusion Transformer と Graph Neural Networks を統合し、テキスト内のマルチ条件分子生成と反応推論を行い、LLM は分子理解の強化により、異なるグラフモジュール間の活性化を柔軟に制御する。
さらに、Llamole は A* 探索を LLM ベースのコスト関数と統合し、効率的な再合成計画を行う。
ベンチマークデータセットを作成し、Llamoleをコンテキスト内学習に対して評価し、教師付き微調整を行う。
Llamoleは、制御可能な分子設計と再合成計画のために、12のメトリクスにまたがる14の適応LDMを著しく上回っている。
While large language models (LLMs) have integrated images, adapting them to graphs remains challenging, limiting their applications in materials and drug design. This difficulty stems from the need for coherent autoregressive generation across texts and graphs. To address this, we introduce Llamole, the first multimodal LLM capable of interleaved text and graph generation, enabling molecular inverse design with retrosynthetic planning. Llamole integrates a base LLM with the Graph Diffusion Transformer and Graph Neural Networks for multi-conditional molecular generation and reaction inference within texts, while the LLM, with enhanced molecular understanding, flexibly controls activation among the different graph modules. Additionally, Llamole integrates A* search with LLM-based cost functions for efficient retrosynthetic planning. We create benchmarking datasets and conduct extensive experiments to evaluate Llamole against in-context learning and supervised fine-tuning. Llamole significantly outperforms 14 adapted LLMs across 12 metrics for controllable molecular design and retrosynthetic planning. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# AIM 2024 ビデオ超解像品質評価の課題:方法と結果
AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results ( http://arxiv.org/abs/2410.04225v1 ) ライセンス: Link先を確認 | Ivan Molodetskikh, Artem Borisov, Dmitriy Vatolin, Radu Timofte, Jianzhao Liu, Tianwu Zhi, Yabin Zhang, Yang Li, Jingwen Xu, Yiting Liao, Qing Luo, Ao-Xiang Zhang, Peng Zhang, Haibo Lei, Linyan Jiang, Yaqing Li, Yuqin Cao, Wei Sun, Weixia Zhang, Yinan Sun, Ziheng Jia, Yuxin Zhu, Xiongkuo Min, Guangtao Zhai, Weihua Luo, Yupeng Z., Hong Y, | (参考訳) 本稿では,ECCV 2024と共同で開催された画像操作(AIM)ワークショップの一環として行われた,ビデオ超解像(SR)品質アセスメント(QA)チャレンジについて述べる。
この課題の課題は、現代の画像とビデオ-SRアルゴリズムを用いて、2xと4xのアップスケールされたビデオのための客観的QA手法を開発することである。
QA法は,52のSR法と124のアップスケールビデオのクラウドソース比較から得られた150,000対の投票結果から得られた総括的主観的スコアとを比較して評価した。
SR QAの目標は、従来のQA手法の適用範囲が限られているという難題が証明された、最先端のSR QAを前進させることであった。
この挑戦には29人の登録参加者が参加し、5つのチームが最終結果を提出した。
プライベートテストサブセットを含むすべてのデータが、チャレンジホームページのhttps://challenges.processprocessing.ai/challenges/super- resolution-metrics-challengeで公開されている。
This paper presents the Video Super-Resolution (SR) Quality Assessment (QA) Challenge that was part of the Advances in Image Manipulation (AIM) workshop, held in conjunction with ECCV 2024. The task of this challenge was to develop an objective QA method for videos upscaled 2x and 4x by modern image- and video-SR algorithms. QA methods were evaluated by comparing their output with aggregate subjective scores collected from >150,000 pairwise votes obtained through crowd-sourced comparisons across 52 SR methods and 1124 upscaled videos. The goal was to advance the state-of-the-art in SR QA, which had proven to be a challenging problem with limited applicability of traditional QA methods. The challenge had 29 registered participants, and 5 teams had submitted their final results, all outperforming the current state-of-the-art. All data, including the private test subset, has been made publicly available on the challenge homepage at https://challenges.videoprocessing.ai/challenges/super-resolution-metrics-challenge.html | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 記憶を持つSGDの基礎特性と確率加速度
SGD with memory: fundamental properties and stochastic acceleration ( http://arxiv.org/abs/2410.04228v1 ) ライセンス: Link先を確認 | Dmitry Yarotsky, Maksim Velikanov, | (参考訳) 重要なオープン問題は、パワーロースペクトルを持つ二次問題に対するミニバッチSGD型アルゴリズムの理論的に実現可能な加速である。
非確率的な設定では、損失収束における最適指数$\xi$$L_t\sim C_Lt^{-\xi}$は、通常のGDでは2倍であり、適切なスケジュールでヘビーボール(HB)を用いて達成可能である。
任意の固定数$M$の補助速度ベクトル(*Memory-$M$アルゴリズム*)を持つ一階法を考えることでこの問題に対処する。
まず、そのようなアルゴリズムの2つの形式間の等価性を証明し、適切な特性多項式の項でそれらを記述する。
次に,信号・雑音伝搬器の損失を一般化する手法を提案する。
これを用いて、定常安定メモリの損失-M$アルゴリズムは、常に通常のGDの指数$\xi$を保持するが、HBを一般化する効果的な学習率に応じて、C_L$が異なる定数を持つことができることを示す。
メモリ1のアルゴリズムでは、安定性を維持しながら、任意に$C_L$を小さくすることができる。
その結果、時間依存型スケジュールを持つメモリ1アルゴリズムを提案し、時間依存型SGDの指数$\xi$を改善するために、ヒューリスティックかつ実験的に示す。
An important open problem is the theoretically feasible acceleration of mini-batch SGD-type algorithms on quadratic problems with power-law spectrum. In the non-stochastic setting, the optimal exponent $\xi$ in the loss convergence $L_t\sim C_Lt^{-\xi}$ is double that in plain GD and is achievable using Heavy Ball (HB) with a suitable schedule; this no longer works in the presence of mini-batch noise. We address this challenge by considering first-order methods with an arbitrary fixed number $M$ of auxiliary velocity vectors (*memory-$M$ algorithms*). We first prove an equivalence between two forms of such algorithms and describe them in terms of suitable characteristic polynomials. Then we develop a general expansion of the loss in terms of signal and noise propagators. Using it, we show that losses of stationary stable memory-$M$ algorithms always retain the exponent $\xi$ of plain GD, but can have different constants $C_L$ depending on their effective learning rate that generalizes that of HB. We prove that in memory-1 algorithms we can make $C_L$ arbitrarily small while maintaining stability. As a consequence, we propose a memory-1 algorithm with a time-dependent schedule that we show heuristically and experimentally to improve the exponent $\xi$ of plain SGD. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# 多様性に基づくサンプリングによる分布アライメントの改善
Improving Distribution Alignment with Diversity-based Sampling ( http://arxiv.org/abs/2410.04235v1 ) ライセンス: Link先を確認 | Andrea Napoli, Paul White, | (参考訳) ドメインシフトは機械学習においてユビキタスであり、実際のデータにデプロイすると、モデルのパフォーマンスが大幅に低下する可能性がある。
分散アライメント手法は、分布間の差を最小限にして、領域間で不変な特徴表現を学習することを目的としている。
しかし、確率勾配勾配(SGD)によるトレーニングでは、差分推定は極めてうるさくなり、異なる部分群の相対比のシフトはドメインの不整合を招きかねない。
本稿では,各サンプル小バッチの多様性を誘導することにより,これらの推定値を改善することを提案する。
これによりデータのバランスが取れ、勾配のばらつきが軽減され、モデルの一般化能力が向上する。
我々は,k-決定点プロセス(k-DPP)とk-means++アルゴリズムに基づく多様性に基づくデータサンプリングの2つの選択肢について述べる。
生体音響事象検出における実世界のドメインシフトタスクについて、両選択肢について示す。
1) 完全なデータセットのより代表的なミニバッチを得る。
2 所定のサンプルサイズの分布間の距離推定誤差を低減し、
3) 2つの分布アライメントアルゴリズムと標準EMMにおける分布外精度の改善を行った。
Domain shifts are ubiquitous in machine learning, and can substantially degrade a model's performance when deployed to real-world data. To address this, distribution alignment methods aim to learn feature representations which are invariant across domains, by minimising the discrepancy between the distributions. However, the discrepancy estimates can be extremely noisy when training via stochastic gradient descent (SGD), and shifts in the relative proportions of different subgroups can lead to domain misalignments; these can both stifle the benefits of the method. This paper proposes to improve these estimates by inducing diversity in each sampled minibatch. This simultaneously balances the data and reduces the variance of the gradients, thereby enhancing the model's generalisation ability. We describe two options for diversity-based data samplers, based on the k-determinantal point process (k-DPP) and the k-means++ algorithm, which can function as drop-in replacements for a standard random sampler. On a real-world domain shift task of bioacoustic event detection, we show that both options 1) yield minibatches which are more representative of the full dataset; 2) reduce the distance estimation error between distributions, for a given sample size; and 3) improve out-of-distribution accuracy for two distribution alignment algorithms, as well as standard ERM. | 翻訳日:2024-11-02 09:11:41 公開日:2024-10-05 |
# Factify5WQAの概要
Overview of Factify5WQA: Fact Verification through 5W Question-Answering ( http://arxiv.org/abs/2410.04236v1 ) ライセンス: Link先を確認 | Suryavardan Suresh, Anku Rani, Parth Patwa, Aishwarya Reganti, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal, | (参考訳) フェイクニュースが本物のニュースよりずっと速く拡散していることが、研究者たちによって発見されました。
これは特に、ソーシャルメディアが若い世代の多くにとって重要なニュースの源となっている現代の世界では大きな問題である。
したがって、ファクト検証は重要な課題となり、多くのメディアサイトが原因に貢献している。
ネット上の偽ニュースの数を考えると、手動の事実検証は面倒な作業だ。
Factify5WQA共有タスクは、アスペクトベースの質問応答に基づく事実検証手法を備えたデータセットを提供することで、自動フェイクニュース検出に向けた研究を強化することを目的としている。
各クレームとそのサポートドキュメントは,2つの情報ソースを比較するのに役立つ5W質問に関連付けられている。
目標性能測定はBLEUスコアを用いて回答を比較して回答の精度を計測し、次にその分類の精度測定を行う。
このタスクは、カスタムトレーニング設定や事前訓練された言語モデルなどを使用して提出された。
最高成績のチームは69.56%の精度でベースラインを35%上回った。
Researchers have found that fake news spreads much times faster than real news. This is a major problem, especially in today's world where social media is the key source of news for many among the younger population. Fact verification, thus, becomes an important task and many media sites contribute to the cause. Manual fact verification is a tedious task, given the volume of fake news online. The Factify5WQA shared task aims to increase research towards automated fake news detection by providing a dataset with an aspect-based question answering based fact verification method. Each claim and its supporting document is associated with 5W questions that help compare the two information sources. The objective performance measure in the task is done by comparing answers using BLEU score to measure the accuracy of the answers, followed by an accuracy measure of the classification. The task had submissions using custom training setup and pre-trained language-models among others. The best performing team posted an accuracy of 69.56%, which is a near 35% improvement over the baseline. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# 複雑システムの信頼性の最良の解決に向けて - 統計学は機械学習より優れているか?
Towards the Best Solution for Complex System Reliability: Can Statistics Outperform Machine Learning? ( http://arxiv.org/abs/2410.04238v1 ) ライセンス: Link先を確認 | Maria Luz Gamiz, Fernando Navas-Gomez, Rafael Nozal-Cañadas, Rocio Raya-Miranda, | (参考訳) 機械学習技術を用いた複雑なシステムの信頼性の研究は、システムの本質的な性質やデータから、現実のシナリオにおけるモデルの構築と効果的デプロイの難しさまで、一連の技術的および実践的な課題に直面している。
本研究は,信頼性評価における複雑なシステム分析を改善するための古典的統計手法と機械学習手法の有効性を比較した。
我々は,従来の統計アルゴリズムが,多くの実用的な応用において,ブラックボックス機械学習アプローチよりも正確かつ解釈可能な結果が得られることを実証することを目的とする。
実世界のデータとシミュレーションシナリオの両方を用いて評価を行う。
統計的モデリングアルゴリズムとニューラルネットワーク,K-アネレスト近傍,ランダム森林などの機械学習手法から得られた結果を報告する。
Studying the reliability of complex systems using machine learning techniques involves facing a series of technical and practical challenges, ranging from the intrinsic nature of the system and data to the difficulties in modeling and effectively deploying models in real-world scenarios. This study compares the effectiveness of classical statistical techniques and machine learning methods for improving complex system analysis in reliability assessments. We aim to demonstrate that classical statistical algorithms often yield more precise and interpretable results than black-box machine learning approaches in many practical applications. The evaluation is conducted using both real-world data and simulated scenarios. We report the results obtained from statistical modeling algorithms, as well as from machine learning methods including neural networks, K-nearest neighbors, and random forests. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# オンライン討論のためのペルソナ知識を考慮したプロンプトチューニング手法
Persona Knowledge-Aligned Prompt Tuning Method for Online Debate ( http://arxiv.org/abs/2410.04239v1 ) ライセンス: Link先を確認 | Chunkit Chan, Cheng Jiayang, Xin Liu, Yauwai Yim, Yuxin Jiang, Zheye Deng, Haoran Li, Yangqiu Song, Ginny Y. Wong, Simon See, | (参考訳) 議論とは、視点を交換したり、特定の問題について他人を説得するプロセスである。
近年の研究では、議論の説得力は言語の使用だけでなく、コミュニケーション者の特徴によっても決定されるという実証的な証拠が提示されている。
研究者は言語的特徴や談話構造といった言語的側面に多くの注意を払ってきたが、議論の説得性と聴衆の社会的ペルソナへの影響は、難易度と複雑さのために研究されていない。
我々はChatGPTの印象的なシミュレーションと人格化能力を観察し、様々な背景知識に基づいて人格を提供する巨大な事前学習言語モデルが個人として機能し、独特な影響力を発揮できることを示した。
そこで我々は,議論品質評価タスクのためのペルソナ・ナレッジ・アライメント・フレームワークを聴衆側から提案する。
これはChatGPTの出現を利用した最初の作品であり、このような聴衆のペルソナ知識をプロンプトチューニングを通じてより小さな言語モデルに注入する。
パイプラインのパフォーマンスは、競合するアーキテクチャと比較して大きく、一貫した改善を示しています。
Debate is the process of exchanging viewpoints or convincing others on a particular issue. Recent research has provided empirical evidence that the persuasiveness of an argument is determined not only by language usage but also by communicator characteristics. Researchers have paid much attention to aspects of languages, such as linguistic features and discourse structures, but combining argument persuasiveness and impact with the social personae of the audience has not been explored due to the difficulty and complexity. We have observed the impressive simulation and personification capability of ChatGPT, indicating a giant pre-trained language model may function as an individual to provide personae and exert unique influences based on diverse background knowledge. Therefore, we propose a persona knowledge-aligned framework for argument quality assessment tasks from the audience side. This is the first work that leverages the emergence of ChatGPT and injects such audience personae knowledge into smaller language models via prompt tuning. The performance of our pipeline demonstrates significant and consistent improvement compared to competitive architectures. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# ネオンにおけるアト秒光電子干渉計における中間共鳴の役割
Role of intermediate resonances in attosecond photoelectron interferometry in neon ( http://arxiv.org/abs/2410.04240v1 ) ライセンス: Link先を確認 | M. Moioli, M. M. Popova, K. R. Hamilton, D. Ertel, D. Busto, I. Makos, M. D. Kiselev, S. N. Yudin, H. Ahmadi, C. D. Schröter, T. Pfeifer, R. Moshammer, E. V. Gryzlova, A. N. Grum-Grzhimailo, K. Bartschat, G. Sansone, | (参考訳) アト秒パルス列とシンクロナイズド赤外線場の組み合わせに基づくアト秒光電子干渉法は、アト秒波形の時間的評価と光電離過程における電子動力学の研究のための基礎技術である。
このアプローチでは、極紫外高調波のコムは、調査中のターゲットのイオン化しきい値よりも高くなり、単一の光子吸収によって光電子を放出する。
出力する光電子と赤外線パルスとの相互作用は、赤外線光子の吸収または放出をもたらすため、サイドバンドと呼ばれる光電子スペクトルに新たなピークが生じる。
第1のイオン化工程における共鳴がない場合、光イオン化過程に付与される相は光子エネルギーとともに円滑に進化するが、中間共振の存在は、出力する光電子波パケットに大きな付加相を印加する。
本研究では、ネオンのイオン化しきい値以下のハーモニクスのコムを用いて、中間結合励起状態がアト秒光電子干渉計に及ぼす影響について検討する。
側バンドの振動と角分布の位相はそのような共鳴の影響を強く受けていることが示される。
極紫外高調波の光子エネルギーをわずかに調整することにより、選択された共鳴の寄与をいかに拡張または抑制するかを示す。
Attosecond photoelectron interferometry based on the combination of an attosecond pulse train and a synchronized infrared field is a fundamental technique for the temporal characterization of attosecond waveforms and for the investigation of electron dynamics in the photoionization process. In this approach, the comb of extreme ultraviolet harmonics typically lies above the ionization threshold of the target under investigation, thus releasing a photoelectron by single-photon absorption. The interaction of the outgoing photoelectron with the infrared pulse results in the absorption or emission of infrared photons, thereby creating additional peaks in the photoelectron spectrum, referred to as sidebands. While, in the absence of resonances in the first ionization step, the phases imparted on the photoionization process evolve smoothly with the photon energy, the presence of intermediate resonances imprints a large additional phase on the outgoing photoelectron wave packet. In this work, using a comb of harmonics below and above the ionization threshold of neon, we investigate the effect of intermediate bound excited states on attosecond photoelectron interferometry. We show that the phase of the oscillations of the sidebands and their angular distributions are strongly affected by such resonances. By slightly tuning the photon energies of the extreme ultraviolet harmonics, we show how the contributions of selected resonances can be enhanced or suppressed. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# 命題型 KLM-Style Defeasible Standpoint Logics に向けて
Towards Propositional KLM-Style Defeasible Standpoint Logics ( http://arxiv.org/abs/2410.04245v1 ) ライセンス: Link先を確認 | Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph, | (参考訳) KLMアプローチによるデファシブル推論のアプローチは、古典論理学への影響の弱体化をもたらす。
これにより、例外を一般的な規則に論理体系に組み込むことができ、新しい矛盾した情報を学ぶと古い結論が取り下げられる。
スタンドポイント論理(スタンドポイントりょう、英語: Standpoint logics)は、知識表現の分野に過去5年間に導入された論理群であり、複数の視点を同じオントロジーに統合することができる。
本稿では,制約条件下でのKLM命題論理に視点を統合することを目的とする。
本稿では,Defeasible Restricted Standpoint Logic (DRSL) の論理体系を導入し,その構文と意味を定義した。
具体的には、DRSLのランク付けされたスタンドポイント構造を導入するために、それぞれ命題KLMと命題視点論理のセマンティクスを提供する、ランク付けされた解釈とスタンドポイント構造を統合する。
さらに, 命題KLM症例からDRSL症例まで, 非単調な有理閉包関係を拡張した。
本論文の主な貢献は,DRSLの論理的閉包をアルゴリズム的にも意味的にも特徴付けることである。
最後に、有理閉包の意味的特徴とアルゴリズム的特徴は等価であり、有理閉包の下でのDRSLのentailment-checkingは命題KLMのentailment-checkingと同じ複雑性クラスにあると結論づける。
The KLM approach to defeasible reasoning introduces a weakened form of implication into classical logic. This allows one to incorporate exceptions to general rules into a logical system, and for old conclusions to be withdrawn upon learning new contradictory information. Standpoint logics are a group of logics, introduced to the field of Knowledge Representation in the last 5 years, which allow for multiple viewpoints to be integrated into the same ontology, even when certain viewpoints may hold contradicting beliefs. In this paper, we aim to integrate standpoints into KLM propositional logic in a restricted setting. We introduce the logical system of Defeasible Restricted Standpoint Logic (DRSL) and define its syntax and semantics. Specifically, we integrate ranked interpretations and standpoint structures, which provide the semantics for propositional KLM and propositional standpoint logic respectively, in order to introduce ranked standpoint structures for DRSL. Moreover, we extend the non-monotonic entailment relation of rational closure from the propositional KLM case to the DRSL case. The main contribution of this paper is to characterize rational closure for DRSL both algorithmically and semantically, showing that rational closure can be characterized through a single representative ranked standpoint structure. Finally, we conclude that the semantic and algorithmic characterizations of rational closure are equivalent, and that entailment-checking for DRSL under rational closure is in the same complexity class as entailment-checking for propositional KLM. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# ヘルスケアHRの未来をナビゲートする - 現代の課題を克服するためのアジャイル戦略
Navigating the Future of Healthcare HR: Agile Strategies for Overcoming Modern Challenges ( http://arxiv.org/abs/2410.04246v1 ) ライセンス: Link先を確認 | Syeda Aynul Karim, Md. Juniadul Islam, | (参考訳) 本研究では,病院が人的資源管理に直面する課題について検討し,潜在的な解決策を提案する。
これは、病院における現在の人事の実践の概要を提供し、採用、維持、および医療スタッフの職業的発達に影響を及ぼす重要な課題を浮き彫りにしている。
この研究は、これらの課題が患者の成果と病院全体のパフォーマンスにどのように影響するかをさらに調査する。
効果的な人材育成のための包括的枠組みが提示され、採用、維持、訓練、医療専門家の育成戦略の概要が述べられている。
このフレームワークは、業界におけるベストプラクティスと、ヘルスケアの人事管理に関する最新の研究によって知らされる。
この結果は、効果的な人事管理が病院の成功に不可欠であることを強調し、経営陣や政策立案者が人事戦略を強化するための勧告を提供する。
さらに、当社のプロジェクトでは、患者のケアを容易にするDropbox機能を導入しています。
これにより、患者は問題を報告でき、医師はアプリを通じて迅速に障害に対処できる。
患者は簡単に地元の医師を特定でき、予約もできる。
アプリは救急医療サービスも提供し、患者とのやりとりの記録を維持しながらオンライン決済も受けられる。
患者も医師も、アプリを通じて苦情を提出し、適切なフォローアップアクションを確実にすることができる。
This study examines the challenges hospitals encounter in managing human resources and proposes potential solutions. It provides an overview of current HR practices in hospitals, highlighting key issues affecting recruitment, retention, and professional development of medical staff. The study further explores how these challenges impact patient outcomes and overall hospital performance. A comprehensive framework for effective human resource man agement is presented, outlining strategies for recruiting, retaining, training, and advancing medical professionals. This framework is informed by industry best practices and the latest research in healthcare HR management. The findings underscore that effective HR management is crucial for hospital success and offer recommendations for executives and policymakers to enhance their HR strategies. Additionally, our project introduces a Dropbox feature to facilitate patient care. This allows patients to report their issues, enabling doctors to quickly address ailments via our app. Patients can easily identify local doctors and schedule appointments. The app will also provide emergency medical services and accept online payments, while maintaining a record of patient interactions. Both patients and doctors can file complaints through the app, ensuring appropriate follow-up actions. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# LLM開始ノード機能による量子コンピューティングセマンティックネットワークのリンク予測の高速化
Enhancing Future Link Prediction in Quantum Computing Semantic Networks through LLM-Initiated Node Features ( http://arxiv.org/abs/2410.04251v1 ) ライセンス: Link先を確認 | Gilchan Park, Paul Baity, Byung-Jun Yoon, Adolfy Hoisie, | (参考訳) 量子コンピューティングは物理学と計算機科学の両方において急速に進化しており、複雑な問題を解決し、計算プロセスを加速する可能性を提供している。
量子チップの開発は、様々な実験条件間の相関を理解する必要がある。
科学文献に基づくセマンティックネットワークは、概念間の有意義な関係を表すもので、知識ギャップと新しい概念の組み合わせを識別するために様々な領域で使用されている。
ニューラルネットワークベースのアプローチは、これらのネットワーク内のリンク予測において有望であることを示している。
本研究では,グラフニューラルネットワークにおけるリンク予測タスクのノード表現を強化するために,LLMを用いたノード特徴の初期化を提案する。
LLMはリッチな説明を提供し、手動のフィーチャ作成やコスト削減の必要性を減らすことができる。
提案手法は,量子コンピューティングセマンティックネットワーク上での様々なリンク予測モデルを用いて評価し,従来のノード埋め込み手法と比較して有効性を示した。
Quantum computing is rapidly evolving in both physics and computer science, offering the potential to solve complex problems and accelerate computational processes. The development of quantum chips necessitates understanding the correlations among diverse experimental conditions. Semantic networks built on scientific literature, representing meaningful relationships between concepts, have been used across various domains to identify knowledge gaps and novel concept combinations. Neural network-based approaches have shown promise in link prediction within these networks. This study proposes initializing node features using LLMs to enhance node representations for link prediction tasks in graph neural networks. LLMs can provide rich descriptions, reducing the need for manual feature creation and lowering costs. Our method, evaluated using various link prediction models on a quantum computing semantic network, demonstrated efficacy compared to traditional node embedding techniques. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# 並列状態ベクトルに基づく量子回路シミュレーションのための遅延量子再構成
Lazy Qubit Reordering for Accelerating Parallel State-Vector-based Quantum Circuit Simulation ( http://arxiv.org/abs/2410.04252v1 ) ライセンス: Link先を確認 | Yusuke Teranishi, Shoma Hiraoka, Wataru Mizukami, Masao Okita, Fumihiko Ino, | (参考訳) 本稿では,複数のグラフィックス処理ユニット(GPU)を用いた並列状態ベクトルベースの量子回路シミュレーションを高速化するための2つの量子演算スケジューリング手法を提案する。
提案手法は、並列シミュレーションのオーバーヘッドを支配できるQR(qubit reordering)による全対全通信を削減する。
提案手法では,複数のQRをひとつのQRに集約できるように,QR通信に意図的な遅延を導入することにより,冗長なQRを排除している。
遅延は、時間空間タイリングの原理や、量子演算の実行順序を調整するために使用される古典計算機のキャッシュ最適化技術に基づいて慎重に導入される。
さらに,低速ノード間通信を回避するため,GPUクラスタシステムの階層的相互接続のための拡張スケジューリング手法を提案する。
本稿では,量子状態更新 (QSU) と期待値計算 (EVC) という,変分量子固有解法 (VQE) シミュレーションにおける2つの主要な手順に適した手法を開発した。
32GPU実行に関する実験的検証では、既存のメソッドと比較して、QSUとECV(それぞれ54$\times$と606$\times$)でのアクセラレーションが示されている。
さらに,2層相互接続クラスタシステムにおいて,通信時間を最大15倍に短縮した。
提案手法はQSUやECVを含む任意の量子回路シミュレーションに有用である。
This paper proposes two quantum operation scheduling methods for accelerating parallel state-vector-based quantum circuit simulation using multiple graphics processing units (GPUs). The proposed methods reduce all-to-all communication caused by qubit reordering (QR), which can dominate the overhead of parallel simulation. Our approach eliminates redundant QRs by introducing intentional delays in QR communications such that multiple QRs can be aggregated into a single QR. The delays are carefully introduced based on the principles of time-space tiling, or a cache optimization technique for classical computers, which we use to arrange the execution order of quantum operations. Moreover, we present an extended scheduling method for the hierarchical interconnection of GPU cluster systems to avoid slow inter-node communication. We develop these methods tailored for two primary procedures in variational quantum eigensolver (VQE) simulation: quantum state update (QSU) and expectation value computation (EVC). Experimental validation on 32-GPU executions demonstrates acceleration in QSU and EVC -- up to 54$\times$ and 606$\times$, respectively -- compared to existing methods. Moreover, our extended scheduling method further reduced communication time by up to 15\% in a two-layered interconnected cluster system. Our approach is useful for any quantum circuit simulations, including QSU and/or EVC. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# 人間の誤解を予想する対照的な説明は、人間の意思決定スキルを改善する
Contrastive Explanations That Anticipate Human Misconceptions Can Improve Human Decision-Making Skills ( http://arxiv.org/abs/2410.04253v1 ) ライセンス: Link先を確認 | Zana Buçinca, Siddharth Swaroop, Amanda E. Paluch, Finale Doshi-Velez, Krzysztof Z. Gajos, | (参考訳) 人々の意思決定能力は、しばしば改善に失敗するか、AIが情報的な説明を提供している場合でも、意思決定支援のためにAIに依存する場合でさえ、消滅する可能性がある。
これは、AIの判断と自身の推論の違いを明確にする、直感的にコントラスト的な説明を求める一方で、ほとんどのAIシステムは、AIの判断を正当化する一方、ユーザの思考を考慮しない"一方的な"説明を提供するためである、と我々は主張する。
意思決定タスクにおける人間とAIの知識を整合させるために、AIの選択と、同じタスクに関する予測された、おそらく人間の選択との違いを説明する、人間中心のコントラスト的な説明を生成するフレームワークを導入する。
大規模な実験 (N = 628) の結果、コントラスト的な説明は、意思決定精度を犠牲にすることなく、一方的な説明に比べて、ユーザの独立した意思決定スキルを著しく向上させることを示した。
我々の研究は、人間の推論をAI設計に組み込むことが人間のスキル開発を促進することを実証している。
People's decision-making abilities often fail to improve or may even erode when they rely on AI for decision-support, even when the AI provides informative explanations. We argue this is partly because people intuitively seek contrastive explanations, which clarify the difference between the AI's decision and their own reasoning, while most AI systems offer "unilateral" explanations that justify the AI's decision but do not account for users' thinking. To align human-AI knowledge on decision tasks, we introduce a framework for generating human-centered contrastive explanations that explain the difference between AI's choice and a predicted, likely human choice about the same task. Results from a large-scale experiment (N = 628) demonstrate that contrastive explanations significantly enhance users' independent decision-making skills compared to unilateral explanations, without sacrificing decision accuracy. Amid rising deskilling concerns, our research demonstrates that incorporating human reasoning into AI design can foster human skill development. | 翻訳日:2024-11-02 08:59:37 公開日:2024-10-05 |
# 多言語リンクコーパスにおけるエンティティ挿入:Wikipediaの場合
Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia ( http://arxiv.org/abs/2410.04254v1 ) ライセンス: Link先を確認 | Tomás Feith, Akhil Arora, Martin Gerlach, Debjit Paul, Robert West, | (参考訳) リンクは情報ネットワークの基本的な部分であり、孤立した知識を、その部分の総和よりもはるかにリッチな情報のネットワークに変換する。
しかし、ネットワークに新しいリンクを追加するのは簡単ではなく、適切なソースとターゲットエンティティの識別だけでなく、テキスト内のリンクに適した位置を見つけるために、ソースの内容の理解も必要である。
後者の問題は、特にターゲットエンティティへのリンクを挿入するアンカーとして機能するソースにテキストスパンがない場合に、効果的に対処されていない。
このギャップを埋めるために、情報ネットワークにおいてエンティティ挿入のタスクを導入し、運用する。
ウィキペディアの場合に着目して、この問題が編集者にとって適切かつ困難なものであることを実証的に示す。
ベンチマークデータセットを105言語にコンパイルし,LocEI (Localized Entity Insertion) と呼ばれるエンティティ挿入のためのフレームワークを開発した。
XLocEI は全てのベースラインモデル(GPT-4 などの LLM を用いた最先端のプロンプトベースランキングを含む)より優れており、最小性能低下の訓練中に見られない言語に対してゼロショットで適用可能であることを示す。
これらの発見は、ウィキペディアの300以上の言語バージョンにリンクを追加する際にエディタをサポートするために、実際にエンティティ挿入モデルを適用する上で重要である。
Links are a fundamental part of information networks, turning isolated pieces of knowledge into a network of information that is much richer than the sum of its parts. However, adding a new link to the network is not trivial: it requires not only the identification of a suitable pair of source and target entities but also the understanding of the content of the source to locate a suitable position for the link in the text. The latter problem has not been addressed effectively, particularly in the absence of text spans in the source that could serve as anchors to insert a link to the target entity. To bridge this gap, we introduce and operationalize the task of entity insertion in information networks. Focusing on the case of Wikipedia, we empirically show that this problem is, both, relevant and challenging for editors. We compile a benchmark dataset in 105 languages and develop a framework for entity insertion called LocEI (Localized Entity Insertion) and its multilingual variant XLocEI. We show that XLocEI outperforms all baseline models (including state-of-the-art prompt-based ranking with LLMs such as GPT-4) and that it can be applied in a zero-shot manner on languages not seen during training with minimal performance drop. These findings are important for applying entity insertion models in practice, e.g., to support editors in adding links across the more than 300 language versions of Wikipedia. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 明示的エントロピー規則化への示唆:ノイズラベル下でのViTファインチューニングのベンチマーク
Implicit to Explicit Entropy Regularization: Benchmarking ViT Fine-tuning under Noisy Labels ( http://arxiv.org/abs/2410.04256v1 ) ライセンス: Link先を確認 | Maria Marrium, Arif Mahmood, Mohammed Bennamoun, | (参考訳) 大規模データセットの自動アノテーションは、ディープニューラルネットワーク(DNN)の学習プロセスに悪影響を及ぼすノイズの多いトレーニングデータラベルを導入することができる。
その結果、ノイズラベル学習(NLL)は畳み込みニューラルネットワーク(CNN)にとって重要な研究分野となっている。
本研究では,ノイズラベルに対するViT微調整の脆弱性を評価し,その堅牢性をCNNと比較する。
また、CNN向けに開発されたNLL法が、ViTにも等しく有効であるかどうかについても検討する。
線形プローブとMLP-Kファインチューニングを用いて、2つのViTバックボーン(ViT-B/16とViT-L/16)を、Cross Entropy(CE)、Focal Loss(FL)、Mean Absolute Error(MAE)の3つの一般的な分類損失と、GCE、SCE、NLNL、APL、NCE+AGCE、ANL-CEの6つの堅牢なNLLメソッドを用いてベンチマークする。
MNIST, CIFAR-10/100, WebVision, Clothing1M, Food-101N の6つのデータセットで評価を行った。
さらに、暗黙的予測エントロピー最小化がノイズラベルに対するViTロバスト性に寄与するかどうかを考察し、ほとんどのNLL法における予測エントロピー低減の一般的な傾向を示す。
本研究は, 透明エントロピーの最小化により, ノイズラベルに対するViTレジリエンスが向上するかどうかを考察する。
本研究は, エントロピー正則化の導入により, CEやFLなどの確立した損失関数の性能が向上し, 両VTバックボーンにまたがる6つのNLL法の堅牢性も向上することが示唆された。
Automatic annotation of large-scale datasets can introduce noisy training data labels, which adversely affect the learning process of deep neural networks (DNNs). Consequently, Noisy Labels Learning (NLL) has become a critical research field for Convolutional Neural Networks (CNNs), though it remains less explored for Vision Transformers (ViTs). In this study, we evaluate the vulnerability of ViT fine-tuning to noisy labels and compare its robustness with CNNs. We also investigate whether NLL methods developed for CNNs are equally effective for ViTs. Using linear probing and MLP-K fine-tuning, we benchmark two ViT backbones (ViT-B/16 and ViT-L/16) using three commonly used classification losses: Cross Entropy (CE), Focal Loss (FL), and Mean Absolute Error (MAE), alongside six robust NLL methods: GCE, SCE, NLNL, APL, NCE+AGCE, and ANL-CE. The evaluation is conducted across six datasets including MNIST, CIFAR-10/100, WebVision, Clothing1M, and Food-101N. Furthermore, we explore whether implicit prediction entropy minimization contributes to ViT robustness against noisy labels, noting a general trend of prediction entropy reduction across most NLL methods. Building on this observation, we examine whether explicit entropy minimization could enhance ViT resilience to noisy labels. Our findings indicate that incorporating entropy regularization enhances the performance of established loss functions such as CE and FL, as well as the robustness of the six studied NLL methods across both ViT backbones. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 深度は常に良いか? 識別的語彙モデルにおける深度学習ネットワークによる線形写像の置き換え
Is deeper always better? Replacing linear mappings with deep learning networks in the Discriminative Lexicon Model ( http://arxiv.org/abs/2410.04259v1 ) ライセンス: Link先を確認 | Maria Heitmeier, Valeria Schmidt, Hendrik P. A. Lensch, R. Harald Baayen, | (参考訳) 近年、ディープラーニングモデルは言語の認知モデル化にますます使われてきている。
この研究は、ディープラーニングが、線形手法以上の話者によって解決されるべき学習問題をより深く理解する助けになるかどうかを問うものである。
我々は、数値形式と意味ベクトルのマッピングによる理解と生産をモデル化する差別的語彙モデル(DLM, Baayen et al , 2019)を利用する。
これまでのところ、これらのマッピングは線形(Linear Discriminative Learning, LDL)であり、本研究では深層ニューラルネットワーク(Deep Discriminative Learning, DDL)に置き換える。
DDLは、英語とオランダ語からの大規模で多様なデータセットに対してより正確なマッピングを提供するが、必ずしもエストニア語と台湾・マンダリンのためのものではない。
DDLは、特にslend+erのような擬形態構造を持つ単語において、LDLよりも優れている。
平均反応時間に適用すると、DDLは周波数インフォームド・リニアマッピング(FIL)により優れることがわかった。
しかし、DDLは周波数インフォームド方式(「周波数インフォームド深層学習」、FIDDL)で訓練されており、FILよりもかなり優れている。
最後に、線形写像は、試行錯誤から漸進的な語彙学習(Heitmeier et al , 2023)まで非常に効果的に更新できるが、深層写像はそれを効果的に行うことはできない。
現在、線形写像と深度写像は言語を理解する上で有益である。
Recently, deep learning models have increasingly been used in cognitive modelling of language. This study asks whether deep learning can help us to better understand the learning problem that needs to be solved by speakers, above and beyond linear methods. We utilise the Discriminative Lexicon Model (DLM, Baayen et al., 2019), which models comprehension and production with mappings between numeric form and meaning vectors. While so far, these mappings have been linear (Linear Discriminative Learning, LDL), in the present study we replace them with deep dense neural networks (Deep Discriminative Learning, DDL). We find that DDL affords more accurate mappings for large and diverse datasets from English and Dutch, but not necessarily for Estonian and Taiwan Mandarin. DDL outperforms LDL in particular for words with pseudo-morphological structure such as slend+er. Applied to average reaction times, we find that DDL is outperformed by frequency-informed linear mappings (FIL). However, DDL trained in a frequency-informed way ('frequency-informed' deep learning, FIDDL) substantially outperforms FIL. Finally, while linear mappings can very effectively be updated from trial-to-trial to model incremental lexical learning (Heitmeier et al., 2023), deep mappings cannot do so as effectively. At present, both linear and deep mappings are informative for understanding language. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 入力制約下における内部安全設定最大化のためのパレート制御バリア関数
Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints ( http://arxiv.org/abs/2410.04260v1 ) ライセンス: Link先を確認 | Xiaoyang Cao, Zhe Fu, Alexandre M. Bayen, | (参考訳) 本稿では,入力制約下での動的システムの内部安全集合を最大化するために,Pareto Control Barrier Function (PCBF)アルゴリズムを紹介する。
従来の制御バリア関数(CBF)は、安全なセット内でシステムトラジェクトリを維持することで安全性を確保するが、現実的な入力制約を考慮できないことが多い。
この問題に対処するために、我々はParetoマルチタスク学習フレームワークを活用し、競合する安全性と安全な設定ボリュームのバランスをとる。
PCBFアルゴリズムは高次元システムに適用でき、計算効率が高い。
逆振り子に対するハミルトン・ヤコビの到達性との比較と,12次元四元数系のシミュレーションにより,その有効性を検証する。
その結果,PCBFは既存の手法を一貫して上回り,入力制約下での安全性を確保した。
This article introduces the Pareto Control Barrier Function (PCBF) algorithm to maximize the inner safe set of dynamical systems under input constraints. Traditional Control Barrier Functions (CBFs) ensure safety by maintaining system trajectories within a safe set but often fail to account for realistic input constraints. To address this problem, we leverage the Pareto multi-task learning framework to balance competing objectives of safety and safe set volume. The PCBF algorithm is applicable to high-dimensional systems and is computationally efficient. We validate its effectiveness through comparison with Hamilton-Jacobi reachability for an inverted pendulum and through simulations on a 12-dimensional quadrotor system. Results show that the PCBF consistently outperforms existing methods, yielding larger safe sets and ensuring safety under input constraints. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# フレキシブル制約を考慮したパワードライジング軌道生成のための構成拡散モデル
Compositional Diffusion Models for Powered Descent Trajectory Generation with Flexible Constraints ( http://arxiv.org/abs/2410.04261v1 ) ライセンス: Link先を確認 | Julia Briden, Yilun Du, Enrico M. Zucchelli, Richard Linares, | (参考訳) この研究は、TrajDiffuserを紹介している。TrajDiffuserは、組成拡散に基づくフレキシブルで同時な軌道生成器で、6自由度駆動の降下誘導を提供する。
TrajDiffuserは、シミュレーションされた最適軌道のデータセットのマルチモーダル分布を学習する統計モデルである。
推論中、軌道は時間とともに同時に生成され、安定した長距離計画が提供され、モデルの一般化可能性を高め、必要なトレーニングデータを減らすことができる。
生成された軌道はオプティマイザの初期化に使用され、ロバスト性や速度が向上する。
This work introduces TrajDiffuser, a compositional diffusion-based flexible and concurrent trajectory generator for 6 degrees of freedom powered descent guidance. TrajDiffuser is a statistical model that learns the multi-modal distributions of a dataset of simulated optimal trajectories, each subject to only one or few constraints that may vary for different trajectories. During inference, the trajectory is generated simultaneously over time, providing stable long-horizon planning, and constraints can be composed together, increasing the model's generalizability and decreasing the training data required. The generated trajectory is then used to initialize an optimizer, increasing its robustness and speed. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# DeFoG: グラフ生成のための離散フローマッチング
DeFoG: Discrete Flow Matching for Graph Generation ( http://arxiv.org/abs/2410.04263v1 ) ライセンス: Link先を確認 | Yiming Qin, Manuel Madeira, Dorina Thanou, Pascal Frossard, | (参考訳) グラフ生成は、複雑なデータの基盤となる分布を明らかにし、最終的には新しい現実的なデータポイントを生成する能力によって、多様な科学的応用において基本的なものである。
この領域での拡散モデルの成功にもかかわらず、これらの領域はサンプリング効率と柔軟性の限界に直面し、トレーニングとサンプリングステージの密結合から生じる。
そこで本稿では,グラフ生成のための離散フローマッチングを用いた新しいフレームワークであるDeFoGを提案する。
DeFoGは、効率的な線形補間ノイズ発生過程と、連続的なマルコフ連鎖の定式化に基づくフレキシブルな復調過程を特徴とするフローベースのアプローチを採用している。
我々は表現型グラフ変換器を活用し、グラフ対称性を尊重するために望ましいノード置換特性を確保する。
重要な点として,本フレームワークはトレーニングおよびサンプリング段階のアンタングル設計を可能にし,モデル性能のより効率的かつ効率的な最適化を可能にする。
既存の拡散モデルを一貫して超越したモデル性能を向上するアルゴリズム的改善を導入することで、このデザイン空間をナビゲートする。
また、一般的な離散データに対して、離散フローモデルは、グラフデータに自然に拡張し、DeFoGの基礎を強化する結果である、基底真理分布を忠実に再現することができることを理論的に証明する。
大規模な実験により、DeFoGは合成および分子データセットの最先端の結果を達成し、拡散モデルよりもトレーニングとサンプリングの効率を改善し、デジタル病理データセットの条件生成に優れることが示された。
Graph generation is fundamental in diverse scientific applications, due to its ability to reveal the underlying distribution of complex data, and eventually generate new, realistic data points. Despite the success of diffusion models in this domain, those face limitations in sampling efficiency and flexibility, stemming from the tight coupling between the training and sampling stages. To address this, we propose DeFoG, a novel framework using discrete flow matching for graph generation. DeFoG employs a flow-based approach that features an efficient linear interpolation noising process and a flexible denoising process based on a continuous-time Markov chain formulation. We leverage an expressive graph transformer and ensure desirable node permutation properties to respect graph symmetry. Crucially, our framework enables a disentangled design of the training and sampling stages, enabling more effective and efficient optimization of model performance. We navigate this design space by introducing several algorithmic improvements that boost the model performance, consistently surpassing existing diffusion models. We also theoretically demonstrate that, for general discrete data, discrete flow models can faithfully replicate the ground truth distribution - a result that naturally extends to graph data and reinforces DeFoG's foundations. Extensive experiments show that DeFoG achieves state-of-the-art results on synthetic and molecular datasets, improving both training and sampling efficiency over diffusion models, and excels in conditional generation on a digital pathology dataset. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 前方特徴写像の対角化による深部ニューラルネットワークにおける特徴学習の可視化
Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map ( http://arxiv.org/abs/2410.04264v1 ) ライセンス: Link先を確認 | Yoonsoo Nam, Chris Mingard, Seok Hyeong Lee, Soufiane Hayou, Ard Louis, | (参考訳) ディープニューラルネットワーク(DNN)は、人間の入力なしで適切な特徴を見つけ、自動的にデータ表現を学習する驚くべき能力を示す。
本稿では,DNNを分解して特徴学習を分析する手法を提案する。
1)入力データ空間をペナルティ階層のポストアクティベーションにマッピングするフォワード機能マップ$\Phi$
2) データを分類する最後の線形層。
我々は、勾配降下作用素に対して$\Phi$を対角化し、訓練中に$\Phi$の変化の固有関数と固有値がどのように変化するかを測定することによって特徴学習を追跡する。
多くの一般的なアーキテクチャや分類データセットの中で、DNNはほんの少しのエポックの後、クラス数に等しい多くの固有関数が支配する最小の特徴(MF)に収束する。
この挙動は、長い訓練時間で研究された神経崩壊現象に類似している。
CIFAR10上の完全接続ネットワークのような他のDNNデータの組み合わせでは、より多くの機能が使用される拡張機能(EF)レシエーションが見つかる。
超パラメータチューニングによる最適一般化性能は、通常、MFレギュレーションと一致するが、MFレギュレーション内での低パフォーマンスの例も見出す。
最後に、リグレッションなどの幅広いタスクに拡張可能な、神経崩壊現象をカーネルイメージに再キャストする。
Deep neural networks (DNNs) exhibit a remarkable ability to automatically learn data representations, finding appropriate features without human input. Here we present a method for analysing feature learning by decomposing DNNs into 1) a forward feature-map $\Phi$ that maps the input dataspace to the post-activations of the penultimate layer, and 2) a final linear layer that classifies the data. We diagonalize $\Phi$ with respect to the gradient descent operator and track feature learning by measuring how the eigenfunctions and eigenvalues of $\Phi$ change during training. Across many popular architectures and classification datasets, we find that DNNs converge, after just a few epochs, to a minimal feature (MF) regime dominated by a number of eigenfunctions equal to the number of classes. This behaviour resembles the neural collapse phenomenon studied at longer training times. For other DNN-data combinations, such as a fully connected network on CIFAR10, we find an extended feature (EF) regime where significantly more features are used. Optimal generalisation performance upon hyperparameter tuning typically coincides with the MF regime, but we also find examples of poor performance within the MF regime. Finally, we recast the phenomenon of neural collapse into a kernel picture which can be extended to broader tasks such as regression. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 人文科学のサリエリとしてのAI : Webテキストに対する機械テキストの体系的属性による言語モデルの言語的創造性の定量化
AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text ( http://arxiv.org/abs/2410.04265v1 ) ライセンス: Link先を確認 | Ximing Lu, Melanie Sclar, Skyler Hallinan, Niloofar Mireshghallah, Jiacheng Liu, Seungju Han, Allyson Ettinger, Liwei Jiang, Khyathi Chandu, Nouha Dziri, Yejin Choi, | (参考訳) 創造性は、AIが模倣する人間の知能の最も難しい側面の1つと考えられてきた。
しかし、ChatGPTのようなLarge Language Models(LLMs)の台頭は、AIが人間の創造性にマッチするか、さらに超えるかを疑問視している。
本稿では,Web上の既存のテキストスニペットからテキストを再構築することにより,テキストの言語的創造性を定量化する第一歩として,CREATIVITY INDEXを提案する。
CREATIVITY INDEXは、LLMの目覚ましい創造性は、ウェブ上の人文テキストの創造性に大きく寄与する可能性があるという仮説に動機付けられている。
DJ SEARCHは,与えられた文書からWebに対して,テキストスニペットの動詞の一致とほぼ動詞の一致を検索できる,新しい動的プログラミングアルゴリズムである。
実験により、専門家の人間作家のCratiivity INDEXは平均66.2%高く、アライメントによってLLMのCREatiivity INDEXが平均30.1%減少することが明らかとなった。
さらに,ヘミングウェイのような著名な作家は,他の人間作家と比較して,極めて高い評価率を示した。
最後に、CREATIVITY INDEXは、ゼロショットマシンのテキスト検出において驚くほど効果的な基準として利用でき、既存の最強のゼロショットシステムであるTectGPTを30.2%上回り、最強の教師システムであるGhostBusterを6つのドメインのうち5つで上回っていることを実証した。
Creativity has long been considered one of the most difficult aspect of human intelligence for AI to mimic. However, the rise of Large Language Models (LLMs), like ChatGPT, has raised questions about whether AI can match or even surpass human creativity. We present CREATIVITY INDEX as the first step to quantify the linguistic creativity of a text by reconstructing it from existing text snippets on the web. CREATIVITY INDEX is motivated by the hypothesis that the seemingly remarkable creativity of LLMs may be attributable in large part to the creativity of human-written texts on the web. To compute CREATIVITY INDEX efficiently, we introduce DJ SEARCH, a novel dynamic programming algorithm that can search verbatim and near-verbatim matches of text snippets from a given document against the web. Experiments reveal that the CREATIVITY INDEX of professional human authors is on average 66.2% higher than that of LLMs, and that alignment reduces the CREATIVITY INDEX of LLMs by an average of 30.1%. In addition, we find that distinguished authors like Hemingway exhibit measurably higher CREATIVITY INDEX compared to other human writers. Finally, we demonstrate that CREATIVITY INDEX can be used as a surprisingly effective criterion for zero-shot machine text detection, surpassing the strongest existing zero-shot system, DetectGPT, by a significant margin of 30.2%, and even outperforming the strongest supervised system, GhostBuster, in five out of six domains. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# クローズ質問の生成
Constructing Cloze Questions Generatively ( http://arxiv.org/abs/2410.04266v1 ) ライセンス: Link先を確認 | Yicheng Sun, Jie Wang, | (参考訳) 本稿では,ニューラルネットワークとWordNetを用いた記事からクローゼ質問を生成するCQGという生成手法を提案する。
意味の曖昧さ、テキストからテキストへの変換、WordNetの構文分類、語彙ラベルに基づいて、CQGは与えられた文に対する応答キーを選択し、それをインスタンスのシーケンスに分割し、トランスフォーマーとシリングシンセットを使用してインスタンスレベルのイントラクタ候補(IDC)を生成する。
最後に、応答キーに対する文脈的セマンティックな類似性に基づいて、トップランクのインタプリタ候補を選択する。
実験の結果,SOTA法はSOTA法よりも有意に優れていた。
人間の裁判官は、生成された散逸器の質の高さも確認する。
We present a generative method called CQG for constructing cloze questions from a given article using neural networks and WordNet, with an emphasis on generating multigram distractors. Built on sense disambiguation, text-to-text transformation, WordNet's synset taxonomies and lexical labels, CQG selects an answer key for a given sentence, segments it into a sequence of instances, generates instance-level distractor candidates (IDCs) using a transformer and sibling synsets.It then removes inappropriate IDCs, ranks the remaining IDCs based on contextual embedding similarities, as well as synset and lexical relatedness, forms distractor candidates by combinatorially replacing instances with the corresponding top-ranked IDCs, and checks if they are legitimate phrases. Finally, it selects top-ranked distractor candidates based on contextual semantic similarities to the answer key. Experiments show that this method significantly outperforms SOTA results. Human judges also confirm the high qualities of the generated distractors. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# RoQLlama: 軽量なルーマニア適応言語モデル
RoQLlama: A Lightweight Romanian Adapted Language Model ( http://arxiv.org/abs/2410.04269v1 ) ライセンス: Link先を確認 | George-Andrei Dima, Andrei-Marius Avram, Cristian-George Crăciun, Dumitru-Clementin Cercel, | (参考訳) 近年のオープンソースの大規模言語モデル(LLM)による顕著な成果は、主に英語に関わるタスクに集中している。
本稿では,ルーマニア語タスクにおけるLlama2モデルの性能向上を目指す。
トレーニングにQLoRAを用いることで,計算機資源の削減という課題に対処する。
我々は、ゼロショット設定でルーマニアの7つの下流タスクでテストした場合、フルサイズのものと同等または改善された結果を示す量子化LDMであるRoQLlama-7bをリリースした。
また、いくつかのプロンプトにまたがる平均スコアも一貫して達成する。
さらに,ルーマニア語における単一選択医療質問を含むルーマニア語データセット,すなわちRoMedQAを導入する。
The remarkable achievements obtained by open-source large language models (LLMs) in recent years have predominantly been concentrated on tasks involving the English language. In this paper, we aim to advance the performance of Llama2 models on Romanian tasks. We tackle the problem of reduced computing resources by using QLoRA for training. We release RoQLlama-7b, a quantized LLM, which shows equal or improved results compared to its full-sized counterpart when tested on seven Romanian downstream tasks in the zero-shot setup. Also, it consistently achieves higher average scores across all few-shot prompts. Additionally, we introduce a novel Romanian dataset, namely RoMedQA, which contains single-choice medical questions in Romanian. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 変圧器の準四角形代替品に関する基礎的限界
Fundamental Limitations on Subquadratic Alternatives to Transformers ( http://arxiv.org/abs/2410.04271v1 ) ライセンス: Link先を確認 | Josh Alman, Hantao Yu, | (参考訳) Transformerアーキテクチャは、多くの人気で影響力のある大規模言語モデルに広くデプロイされている。
中心となるのは、トークンのペア間の相関を計算するための注意機構である。
注意計算は入力サイズで2次時間を要するようになり、変換器演算の時間ボトルネックとなった。
これを回避するために、研究者は、より高速な注意計算を行うためのヒューリスティックアルゴリズムの設計や、より高速に計算できる注意機構に代わる方法を提案するなど、様々なアプローチを用いてきた。
例えば、Mambaのような状態空間モデルは、注意をほぼ線形時間に置き換えるために設計された。
本稿では,トランスフォーマーが行うことのできる重要なタスクを,そのようなアプローチでは実行できないことを証明する(微粒化複雑性理論からの一般的な予想を仮定する)。
文書類似性タスクは、入力された多くのドキュメントとして与えられ、最も類似した(ほぼ)ペアを見つけたいと思っています。
我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に四分数時間で実行できないことを証明した。
したがって、サブクワッドラティック時間で評価できるモデル – 注意のためのサブクワッドラティック時間ヒューリスティックや、Mambaのようなより高速なアテンション置換など – は、このタスクを実行できない。
言い換えれば、(単純あるいは明示的に)文書の類似性に関わるタスクを実行するためには、Transformerを使うのが適しており、その二次的な実行時間を避けることはできない。
The Transformer architecture is widely deployed in many popular and impactful Large Language Models. At its core is the attention mechanism for calculating correlations between pairs of tokens. Performing an attention computation takes quadratic time in the input size, and had become the time bottleneck for transformer operations. In order to circumvent this, researchers have used a variety of approaches, including designing heuristic algorithms for performing attention computations faster, and proposing alternatives to the attention mechanism which can be computed more quickly. For instance, state space models such as Mamba were designed to replace attention with an almost linear time alternative. In this paper, we prove that any such approach cannot perform important tasks that Transformer is able to perform (assuming a popular conjecture from fine-grained complexity theory). We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm. Thus, any model which can be evaluated in subquadratic time - whether because of subquadratic-time heuristics for attention, faster attention replacements like Mamba, or any other reason - cannot perform this task. In other words, in order to perform tasks that (implicitly or explicitly) involve document similarity, one may as well use Transformer and cannot avoid its quadratic running time. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 言語モデルキャラクタ特性の評価
Evaluating Language Model Character Traits ( http://arxiv.org/abs/2410.04272v1 ) ライセンス: Link先を確認 | Francis Rhys Ward, Zejia Yang, Alex Jackson, Randy Brown, Chandler Smith, Grace Colverd, Louis Thomson, Raymond Douglas, Patrik Bartak, Andrew Rowan, | (参考訳) 言語モデル(LM)は人間のような振る舞いを示すことができるが、この振る舞いを不適切な人間同型を伴わずにどのように記述するかは不明確である。
我々は、行動主義的な特徴の行動主義的見解を定式化する: 真理性、梅毒性、一貫性のある信念と意図などの性質は、行動の一貫したパターンとして表される。
我々の理論は、正確で論理的に一貫性のある信念や、有益で無害な意図など、異なる特性を示すLMの実証的な実証に基礎を置いている。
LMが特定の特性を示す一貫性は、モデルサイズ、微調整、プロンプトによって異なる。
LM特性のキャラクタリゼーションに加えて,これらの特性が相互作用の過程でどのように発達するかを評価する。
真理性や有害性といった特性は、ある文脈において、ある相互作用に対して一貫したものであり得るが、異なる文脈において反射的であり、前回の相互作用におけるLMの振る舞いを反映している可能性がある。
我々の形式主義は、直感的な言語でのLMの振る舞いを、不適切な人文準同型を伴わずに正確に記述することができる。
Language models (LMs) can exhibit human-like behaviour, but it is unclear how to describe this behaviour without undue anthropomorphism. We formalise a behaviourist view of LM character traits: qualities such as truthfulness, sycophancy, or coherent beliefs and intentions, which may manifest as consistent patterns of behaviour. Our theory is grounded in empirical demonstrations of LMs exhibiting different character traits, such as accurate and logically coherent beliefs, and helpful and harmless intentions. We find that the consistency with which LMs exhibit certain character traits varies with model size, fine-tuning, and prompting. In addition to characterising LM character traits, we evaluate how these traits develop over the course of an interaction. We find that traits such as truthfulness and harmfulness can be stationary, i.e., consistent over an interaction, in certain contexts, but may be reflective in different contexts, meaning they mirror the LM's behavior in the preceding interaction. Our formalism enables us to describe LM behaviour precisely in intuitive language, without undue anthropomorphism. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# Bosonic Quantum Computational Complexity
Bosonic Quantum Computational Complexity ( http://arxiv.org/abs/2410.04274v1 ) ライセンス: Link先を確認 | Ulysse Chabaud, Michael Joseph, Saeed Mehraban, Arsalan Motamedi, | (参考訳) 光の量子状態のような連続的な自由度を持つ物理系を含む量子コンピューティングは、最近大きな関心を集めている。
しかし、無限次元ヒルベルト空間上のこれらのボソニック計算に対するよく定義された量子複雑性理論は欠落している。
本研究では,このような研究プログラムの基礎を定めている。
自然複雑性クラスとBQP, 局所ハミルトン問題, およびQMAのボゾン一般化に基づく問題を導入する。
標準ブール古典および離散変数量子複雑性クラス間のいくつかの関係と微妙な違いを発見し、顕著な開問題を特定する。
特に、 1. 二次(ガウス)量子力学のパワーはクラス BQL と同値であることを示す。
より一般に、高次ゲートに基づく誤差の有界確率を持つ連続変数量子多項式時間計算のクラスを定義する。
無限次元ヒルベルト空間(英語版)により、これらのクラスに対して決定可能な上界が得られうるかどうかが事前に明らかでない。
これらのクラスに対する完全な問題を特定し、BQPを低く、EXPSPACEを上界に示す。
さらに,多項式ボソニックオブザーバブルの期待値の計算問題はPSPACEにあることを示す。
2. ボゾンハミルトニアンのスペクトルの有界性を決定する問題はコ-NPハードであることを示す。
さらに、ボゾンハミルトニアンの最小エネルギーを求める問題は、エネルギー制約状態の族(英語版)の非ガウス星級数(英語版)(non-Gaussian stellar rank of the family of energy-constrained states)に大きく依存していることが示される: 一定の星位の場合、NP完全である; 多項式有界ランクの場合、QMAであり、非有界ランクの場合、決定不可能である。
Quantum computing involving physical systems with continuous degrees of freedom, such as the quantum states of light, has recently attracted significant interest. However, a well-defined quantum complexity theory for these bosonic computations over infinite-dimensional Hilbert spaces is missing. In this work, we lay foundations for such a research program. We introduce natural complexity classes and problems based on bosonic generalizations of BQP, the local Hamiltonian problem, and QMA. We uncover several relationships and subtle differences between standard Boolean classical and discrete variable quantum complexity classes and identify outstanding open problems. In particular: 1. We show that the power of quadratic (Gaussian) quantum dynamics is equivalent to the class BQL. More generally, we define classes of continuous-variable quantum polynomial time computations with a bounded probability of error based on higher-degree gates. Due to the infinite dimensional Hilbert space, it is not a priori clear whether a decidable upper bound can be obtained for these classes. We identify complete problems for these classes and demonstrate a BQP lower and EXPSPACE upper bound. We further show that the problem of computing expectation values of polynomial bosonic observables is in PSPACE. 2. We prove that the problem of deciding the boundedness of the spectrum of a bosonic Hamiltonian is co-NP-hard. Furthermore, we show that the problem of finding the minimum energy of a bosonic Hamiltonian critically depends on the non-Gaussian stellar rank of the family of energy-constrained states one optimizes over: for constant stellar rank, it is NP-complete; for polynomially-bounded rank, it is in QMA; for unbounded rank, it is undecidable. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 効率的なアクティブラーニングを可能にする言語モデル駆動型データプルーニング
Language Model-Driven Data Pruning Enables Efficient Active Learning ( http://arxiv.org/abs/2410.04275v1 ) ライセンス: Link先を確認 | Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza, | (参考訳) アクティブラーニング(AL)は、アノテーションの最も情報性の高いインスタンスを選択することで、データラベリング効率を最適化する。
このプロセスのキーコンポーネントは、選択プロセスをガイドし、ラベル付けされていないプールからラベル付けする適切なインスタンスを識別する取得関数である。
しかし、これらの取得方法は、大きなラベルのないデータプールを持つ高い計算コストに悩まされ、大規模なデータセットに適用可能であることを妨げている。
この課題に対処し、このギャップを埋めるために、未ラベルデータプルーニング戦略であるActivePruneを導入します。
ActivePruneは、2段階のプルーニングプロセスを実装しており、n-gram言語モデルからのパープレキシティスコアを使用した最初の高速評価と、量子化LDMによって計算されたデータ品質のメトリクスを用いた高品質の選択である。
さらに,ラベルなしプールの多様性を高めるために,後続のラベル付け繰り返しにおける選択のために,表現不足のインスタンスを体系的に進行させる新しいパープレキシティ再重み付け手法を提案する。
4つの多様なデータセットと4つのアクティブラーニング戦略による翻訳、感情分析、トピック分類、要約タスクの実験は、ActivePruneが既存のデータプルーニング手法より優れていることを示した。
最後に、データプルーニング手法の選択品質$\leftrightarrow$効率トレードオフを比較し、ActivePruneが他のLCMスコアベースのプルーニング手法よりも計算効率が高く、アクティブラーニングに必要なエンド・ツー・エンドの時間を最大74%削減できることを示した。
Active learning (AL) optimizes data labeling efficiency by selecting the most informative instances for annotation. A key component in this procedure is an acquisition function that guides the selection process and identifies the suitable instances for labeling from the unlabeled pool. However, these acquisition methods suffer from high computational costs with large unlabeled data pools, posing a roadblock to their applicability on large datasets. To address this challenge and bridge this gap, we introduce a novel plug-and-play unlabeled data pruning strategy, ActivePrune, which leverages language models to prune the unlabeled pool. ActivePrune implements a two-stage pruning process: an initial fast evaluation using perplexity scores from an n-gram language model, followed by a high-quality selection using metrics for data quality computed through a quantized LLM. Additionally, to enhance the diversity in the unlabeled pool, we propose a novel perplexity reweighting method that systematically brings forward underrepresented instances for selection in subsequent labeling iterations. Experiments on translation, sentiment analysis, topic classification, and summarization tasks on four diverse datasets and four active learning strategies demonstrate that ActivePrune outperforms existing data pruning methods. Finally, we compare the selection quality $\leftrightarrow$ efficiency tradeoff of the data pruning methods and demonstrate that ActivePrune is computationally more efficient than other LLM score-based pruning methods, and provides up to 74% reduction in the end-to-end time required for active learning. | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 言語モデルの機械的行動編集
Mechanistic Behavior Editing of Language Models ( http://arxiv.org/abs/2410.04277v1 ) ライセンス: Link先を確認 | Joykirat Singh, Subhabrata Dutta, Tanmoy Chakraborty, | (参考訳) Webスケールのテキストで訓練された大規模言語モデルは、特にタスク知識がテキスト内の例を使って生成前に改良された場合に、幅広いタスクを解決できる言語生成能力を取得する。
しかし、ノイズの多いデータから学んだ突発的な特徴は、その一般化を妨げている。
監督された微調整はタスク特異性を導入するが、データ非効率性を導入する。
先行研究は
i)LLM内の一般化可能な回路と共存する雑音性神経回路
(二)ファインタニングは、新しいものを導入することなく、通常既存の能力を増強(または抑制)する。
そこで本研究では,タスク適応のための新しい手法であるTaRotを提案する。
TaRotは、ベイジアン最適化を用いて最適化された学習可能な回転行列を用いて、標準的な数ショットプロンプトの例の順にラベル付きサンプルに介入する。
様々な大きさのLSMを用いた複数分類および生成タスクの実験では、Torrotの有効性が明らかになり、ゼロと少数ショットのパフォーマンスが向上し、平均的な改善(モデルとタスク全体)はそれぞれ23.81%と11.15%となった。
ソースコードはhttps://github.com/joykirat18/TaRotで入手できる。
Large Language Models trained on web-scale text acquire language generation abilities that can solve a wide range of tasks, particularly when task knowledge is refined into the generative prior using in-context examples. However, spurious features learned from noisy data hinder their generalizability. Supervised finetuning can introduce task specificity, but introduce data inefficiency. Prior studies indicate that (i) noisy neural circuitries coexist with generalizable ones within LLMs, and (ii) finetuning typically enhances (or suppresses) existing abilities without introducing newer ones. Building upon these, we propose TaRot, a novel method for task adaptation. TaRot intervenes in the neural circuitries using learnable rotation matrices that are optimized using Bayesian Optimization, on labelled samples in the order of standard few-shot prompting examples. Experiments on multiple classification and generation tasks using LLMs of varying sizes reveal the efficacy of TaRot, improving upon both zero- as well as few-shot performance, with average improvements (across models and tasks) of 23.81% and 11.15%, respectively. The source code is available at https://github.com/joykirat18/TaRot | 翻訳日:2024-11-02 08:49:52 公開日:2024-10-05 |
# 言語にまたがる情報ギャップと物語的不整合:ウィキペディアにおけるLGBTの人々ポータルの事例研究
Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia ( http://arxiv.org/abs/2410.04282v1 ) ライセンス: Link先を確認 | Farhan Samir, Chan Young Park, Anjalie Field, Vered Shwartz, Yulia Tsvetkov, | (参考訳) 社会現象を説明し、体系的なバイアスを特定するために、計算社会科学における多くの研究は比較テキスト分析に焦点を当てている。
これらの研究は、しばしば粗いコーパスレベルの統計や、主に英語における局所的な単語レベルの分析に頼っている。
我々は,情報ギャップと矛盾を事実レベルで,言語間で,効率的にかつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
言語にまたがる事実には大きな相違点がある。
さらに,分析の結果,ロシア語のウィキペディアでは,否定的な意味を持つ伝記的な事実が強調される傾向が示唆された。
重要なことは、InfoGapはどちらも大規模な分析を促進し、局所的な文書レベルの情報ギャップと事実レベルの情報ギャップを指摘し、大規模にターゲットとニュアンスのある比較言語分析のための新しい基盤を築き上げている。
To explain social phenomena and identify systematic biases, much research in computational social science focuses on comparative text analyses. These studies often rely on coarse corpus-level statistics or local word-level analyses, mainly in English. We introduce the InfoGap method -- an efficient and reliable approach to locating information gaps and inconsistencies in articles at the fact level, across languages. We evaluate InfoGap by analyzing LGBT people's portrayals, across 2.7K biography pages on English, Russian, and French Wikipedias. We find large discrepancies in factual coverage across the languages. Moreover, our analysis reveals that biographical facts carrying negative connotations are more likely to be highlighted in Russian Wikipedia. Crucially, InfoGap both facilitates large scale analyses, and pinpoints local document- and fact-level information gaps, laying a new foundation for targeted and nuanced comparative language analysis at scale. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# ハイブリッドグラフニューラルネットワークによる信用リスク分析の強化
Applying Hybrid Graph Neural Networks to Strengthen Credit Risk Analysis ( http://arxiv.org/abs/2410.04283v1 ) ライセンス: Link先を確認 | Mengfang Sun, Wenying Sun, Ying Sun, Shaobo Liu, Mohan Jiang, Zhen Xu, | (参考訳) 本稿では,グラフ畳み込みニューラルネットワーク(GCNN)を用いた信用リスク予測手法を提案する。
提案手法は、ビッグデータと人工知能のパワーを活用し、従来の信用リスク評価モデルが直面する課題、特に不均衡なデータセットの処理や複雑な関係から有意義な特徴の抽出に対処する。
論文は、生の借主データをグラフ構造化データに変換することから始まり、借主とその関係はそれぞれノードとエッジとして表現される。
古典的な部分グラフ畳み込みモデルを用いて局所的特徴を抽出し、続いて局所的および大域的畳み込み演算子を統合してノード特徴の包括的表現をキャプチャするハイブリッドGCNNモデルを導入する。
ハイブリッドモデルには,特徴を適応的に選択するアテンション機構が組み込まれ,過度なスムース化の問題と機能考慮の不十分さが軽減される。
本研究は、信用リスク予測の精度を向上させるためのGCNNの可能性を実証し、融資決定プロセスの強化を目指す金融機関にとって堅牢なソリューションを提供する。
This paper presents a novel approach to credit risk prediction by employing Graph Convolutional Neural Networks (GCNNs) to assess the creditworthiness of borrowers. Leveraging the power of big data and artificial intelligence, the proposed method addresses the challenges faced by traditional credit risk assessment models, particularly in handling imbalanced datasets and extracting meaningful features from complex relationships. The paper begins by transforming raw borrower data into graph-structured data, where borrowers and their relationships are represented as nodes and edges, respectively. A classic subgraph convolutional model is then applied to extract local features, followed by the introduction of a hybrid GCNN model that integrates both local and global convolutional operators to capture a comprehensive representation of node features. The hybrid model incorporates an attention mechanism to adaptively select features, mitigating issues of over-smoothing and insufficient feature consideration. The study demonstrates the potential of GCNNs in improving the accuracy of credit risk prediction, offering a robust solution for financial institutions seeking to enhance their lending decision-making processes. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 干渉計と光検出における量子ゆらぎとノイズ:光センシングとマイクロマニピュレーションへの応用
Quantum fluctuations and noise in interferometry and photodetection: Applications in optical sensing and micromanipulation ( http://arxiv.org/abs/2410.04284v1 ) ライセンス: Link先を確認 | Masud Mansuripur, | (参考訳) 精密な光学センサーとマイクロマニピュレーションは、小さな粒子の位置、配向、ダイナミクスを微妙に測定する必要がある。
これらの粒子や物体のフィードバック制御に必要な信号を含むプロセスで得られた信号は、光干渉と光検出(または光子計数)の物理過程に付随する量子ゆらぎとノイズによって必然的に汚染される。
本稿では、このような感度測定と必然的に関連づけられる信号ゆらぎと量子ノイズの起源について検討する。
Accurate optical sensing and micromanipulation requires sensitive measurements of the position, orientation, and dynamics of small particles--and sometimes even large objects--under consideration. The signals acquired in the process, including those needed for the feedback control of these particles and objects, are inevitably contaminated by quantum fluctuations and noise that accompany the physical processes of optical interference and photodetection (or photon counting). This paper explores the origins of signal fluctuation and quantum noise that are inevitably associated with such sensitive measurements. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# MindFlayer: 異種およびランダムなWorker Compute Timesの存在下での効率的な非同期並列SGD
MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times ( http://arxiv.org/abs/2410.04285v1 ) ライセンス: Link先を確認 | Artavazd Maranjyan, Omar Shaikh Omar, Peter Richtárik, | (参考訳) 確率勾配を計算するために複数の並列作業者の助けを借りて, 滑らかな非凸関数の期待を最小化する問題について検討する。
特に、労働者の計算時間が任意に不均一でランダムな困難な状況に焦点を当てる。
任意にヘテロジニアスであるが決定論的な計算時間によって特徴づけられる単純な状態において、Tyurin と Richt\'arik (NeurIPS 2023) は、時間複雑性と呼ばれる新しい複雑性の概念を用いて、初めて理論的に最適な非同期SGD法(Rennala SGD)を設計した。
私たちの研究の出発点は、ランダムな計算時間の存在下で、Rennala SGDが任意に悪いパフォーマンスを持つことができるという観察です。
本稿では,この難題における確率的最適化の理解を深めるために,MindFlayer SGDという名の非同期SGD法を提案する。
我々の理論と実証実験により、Rennala SGDを含む既存のベースラインよりもMindFlayer SGDの方がノイズが重い場合の方が優れていることが示された。
We study the problem of minimizing the expectation of smooth nonconvex functions with the help of several parallel workers whose role is to compute stochastic gradients. In particular, we focus on the challenging situation where the workers' compute times are arbitrarily heterogeneous and random. In the simpler regime characterized by arbitrarily heterogeneous but deterministic compute times, Tyurin and Richt\'arik (NeurIPS 2023) recently designed the first theoretically optimal asynchronous SGD method, called Rennala SGD, in terms of a novel complexity notion called time complexity. The starting point of our work is the observation that Rennala SGD can have arbitrarily bad performance in the presence of random compute times -- a setting it was not designed to handle. To advance our understanding of stochastic optimization in this challenging regime, we propose a new asynchronous SGD method, for which we coin the name MindFlayer SGD. Our theory and empirical results demonstrate the superiority of MindFlayer SGD over existing baselines, including Rennala SGD, in cases when the noise is heavy tailed. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 局所ホモフィリーがGNNフェアネスに与える影響を明らかにする: 深部分析と新しいベンチマーク
Unveiling the Impact of Local Homophily on GNN Fairness: In-Depth Analysis and New Benchmarks ( http://arxiv.org/abs/2410.04287v1 ) ライセンス: Link先を確認 | Donald Loveland, Danai Koutra, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフがホモフィリ(サメクラスの接続)とヘテロフィリ(微分クラスの接続)の両方を示すとき、一般化に苦慮することが多い。
特に、GNNは、グローバルなホモフィリーレベルと大きく異なる局所的ホモフィリーレベルを持つノードでは性能が劣る傾向にある。
この問題は、表現不足のホモフィリーレベルが存在するユーザ中心のアプリケーションにリスクをもたらす。
同時に、GNN内の公平さは、メッセージパッシングによるバイアスの増幅の可能性から、かなりの注目を集めている。
しかし、GNNにおける局所的ホモフィリーと公正性の関連性は未解明のままである。
本研究では、グローバルなホモフィリーを超えて、局所的なホモフィリーレベルが不公平な予測にどのように結びつくかを探求する。
まず、表現不足のホモフィリーレベルの公正な予測の課題を、アウト・オブ・ディストリビューション(OOD)問題として定式化することから始める。
次に、局所的ホモフィリーレベルが、異なる感度特性の予測をどのように変更できるかを示す理論的解析を行う。
さらに、3つの新しいGNNフェアネスベンチマークと、新しい半合成グラフ生成器を導入し、OOD問題を実証研究する。
広範に分析した結果、2つの要因が不公平を助長できることがわかった。
(a)OOD距離、及び
(b) ホモフィルグラフに位置するヘテロフィル性ノード。
これら2つの条件を満たす場合、フェアネスは実世界のデータセットで最大24%減少し、半合成データセットで30%減少する。
理論的な洞察、経験的分析、アルゴリズム的な貢献は、グラフのホモフィリー情報に根ざした、これまで見過ごされていた不公平な情報源を明らかにする。
Graph Neural Networks (GNNs) often struggle to generalize when graphs exhibit both homophily (same-class connections) and heterophily (different-class connections). Specifically, GNNs tend to underperform for nodes with local homophily levels that differ significantly from the global homophily level. This issue poses a risk in user-centric applications where underrepresented homophily levels are present. Concurrently, fairness within GNNs has received substantial attention due to the potential amplification of biases via message passing. However, the connection between local homophily and fairness in GNNs remains underexplored. In this work, we move beyond global homophily and explore how local homophily levels can lead to unfair predictions. We begin by formalizing the challenge of fair predictions for underrepresented homophily levels as an out-of-distribution (OOD) problem. We then conduct a theoretical analysis that demonstrates how local homophily levels can alter predictions for differing sensitive attributes. We additionally introduce three new GNN fairness benchmarks, as well as a novel semi-synthetic graph generator, to empirically study the OOD problem. Across extensive analysis we find that two factors can promote unfairness: (a) OOD distance, and (b) heterophilous nodes situated in homophilous graphs. In cases where these two conditions are met, fairness drops by up to 24% on real world datasets, and 30% in semi-synthetic datasets. Together, our theoretical insights, empirical analysis, and algorithmic contributions unveil a previously overlooked source of unfairness rooted in the graph's homophily information. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# OCOおよびICOSデータを用いた炭素排出削減戦略の強化
Enhancing Carbon Emission Reduction Strategies using OCO and ICOS data ( http://arxiv.org/abs/2410.04288v1 ) ライセンス: Link先を確認 | Oskar Åström, Carina Geldhauser, Markus Grillitsch, Ola Hall, Alexandros Sopasakis, | (参考訳) 本研究では,OCO-2(Orbiting Carbon Observatories)とOCO-3(Orbiting Carbon Observatories)の衛星データとICOS(Integrated Carbon Observation System)の地上観測とECMWFリアナリシスv5(ERA5)の気象データを統合することで,局部的なCO2モニタリングを強化する手法を提案する。
国家データをダウンサンプルする従来の手法とは異なり、我々の手法は高解像度のCO2推定にマルチモーダルデータ融合を用いる。
衛星観測から地上レベルCO2を予測するため,KNNの重み付き補間を行い,3.92ppmの根平均正方形誤差を達成した。
以上の結果から,高分解能大気輸送モデルの有効性を浮き彫りにした多種多様なデータソースの統合による局所的な排出パターンの抽出の有効性が示唆された。
開発されたモデルはCO2モニタリングの粒度を向上し、目標とする炭素削減戦略の正確な洞察を提供し、様々な領域や時間スケールに適応可能な、環境モニタリングにおけるニューラルネットワークとKNNの新しい応用を表現している。
We propose a methodology to enhance local CO2 monitoring by integrating satellite data from the Orbiting Carbon Observatories (OCO-2 and OCO-3) with ground level observations from the Integrated Carbon Observation System (ICOS) and weather data from the ECMWF Reanalysis v5 (ERA5). Unlike traditional methods that downsample national data, our approach uses multimodal data fusion for high-resolution CO2 estimations. We employ weighted K-nearest neighbor (KNN) interpolation with machine learning models to predict ground level CO2 from satellite measurements, achieving a Root Mean Squared Error of 3.92 ppm. Our results show the effectiveness of integrating diverse data sources in capturing local emission patterns, highlighting the value of high-resolution atmospheric transport models. The developed model improves the granularity of CO2 monitoring, providing precise insights for targeted carbon mitigation strategies, and represents a novel application of neural networks and KNN in environmental monitoring, adaptable to various regions and temporal scales. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 野生における自己監督型異常検出法
Self-Supervised Anomaly Detection in the Wild: Favor Joint Embeddings Methods ( http://arxiv.org/abs/2410.04289v1 ) ライセンス: Link先を確認 | Daniel Otero, Rafael Mateus, Randall Balestriero, | (参考訳) 正確な異常検出は、コストのかかる故障を防止し、安全性を高めるために、視覚ベースのインフラ検査において重要である。
Self-Supervised Learning (SSL)は、ラベルのないデータから堅牢な表現を学習することで、有望なアプローチを提供する。
しかし、その異常検出への応用はいまだ未定である。
本稿では,下水道インフラに着目した実世界の異常検出のためのSSL手法の包括的評価を提供することにより,このギャップに対処する。
Swer-MLデータセットを用いて、BYOL、Barlow Twins、SimCLR、DINO、MAEを含むSSLフレームワーク間のViT-TinyやResNet-18といった軽量モデルを、さまざまなクラス不均衡レベル下で評価する。
250の実験を通じて、我々はこれらのSSLメソッドの性能を厳格に評価し、堅牢で包括的な評価を確実にする。
以上の結果から,SimCLR や Barlow Twins のような共同埋め込み手法が,クラス不均衡下でのパフォーマンス維持に苦慮する MAE などの再構築手法よりも優れていることが示唆された。
さらに、SSLモデルの選択がバックボーンアーキテクチャよりも重要であることも分かりました。
さらに、RangeMeのような現在のメソッドでは表現品質を適切に評価できないため、ラベルなしでのクロスバリデーションが実現できないため、SSL表現のラベルなしアセスメントの改善の必要性も強調する。
SSLと教師付きモデルのパフォーマンスの相違にもかかわらず、これらの発見は、異常検出を強化するSSLの可能性を強調し、この未調査の分野におけるさらなる研究の道を開く。
Accurate anomaly detection is critical in vision-based infrastructure inspection, where it helps prevent costly failures and enhances safety. Self-Supervised Learning (SSL) offers a promising approach by learning robust representations from unlabeled data. However, its application in anomaly detection remains underexplored. This paper addresses this gap by providing a comprehensive evaluation of SSL methods for real-world anomaly detection, focusing on sewer infrastructure. Using the Sewer-ML dataset, we evaluate lightweight models such as ViT-Tiny and ResNet-18 across SSL frameworks, including BYOL, Barlow Twins, SimCLR, DINO, and MAE, under varying class imbalance levels. Through 250 experiments, we rigorously assess the performance of these SSL methods to ensure a robust and comprehensive evaluation. Our findings highlight the superiority of joint-embedding methods like SimCLR and Barlow Twins over reconstruction-based approaches such as MAE, which struggle to maintain performance under class imbalance. Furthermore, we find that the SSL model choice is more critical than the backbone architecture. Additionally, we emphasize the need for better label-free assessments of SSL representations, as current methods like RankMe fail to adequately evaluate representation quality, making cross-validation without labels infeasible. Despite the remaining performance gap between SSL and supervised models, these findings highlight the potential of SSL to enhance anomaly detection, paving the way for further research in this underexplored area of SSL applications. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 古典的および量子電気力学における非線形光学現象の基礎原理と応用
Fundamental principles and applications of nonlinear optical phenomena in classical and quantum electrodynamics ( http://arxiv.org/abs/2410.04290v1 ) ライセンス: Link先を確認 | Masud Mansuripur, | (参考訳) 非線形光学現象は、マイクロテクノロジーとナノテクノロジーの広大な分野において重要な役割を果たす。
本稿では, 非線形光学材料の一般的な特性について述べるとともに, パラメトリック増幅, ポンプの劣化に伴う周波数拡散, 光の減衰と増幅を伴う量子ノイズ, パラメトリック蛍光について述べる。
Nonlinear optical phenomena play important roles in the vast emerging fields of micro- and nano-technology. This paper describes the general characteristics of nonlinear optical materials and systems, with a focus on parametric amplification, frequency-doubling with pump depletion, quantum noise accompanying attenuation and amplification of light beams, and parametric fluorescence. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 多言語データセットにおける低品質言語サブセットの効率的な同定:大規模多言語音声データセットを事例として
Efficiently Identifying Low-Quality Language Subsets in Multilingual Datasets: A Case Study on a Large-Scale Multilingual Audio Dataset ( http://arxiv.org/abs/2410.04292v1 ) ライセンス: Link先を確認 | Farhan Samir, Emily P. Ahn, Shreya Prakash, Márton Soskuthy, Vered Shwartz, Jian Zhu, | (参考訳) 複数の言語にまたがるデータセットの計算は難しい。
コレクションをよりスケーラブルにするために、研究者は言語識別モデルのようなプロセスに1つ以上の不完全な分類器を組み込むことが多い。
しかし、これらのモデルは失敗しがちであり、いくつかの言語サブセットは下流タスクでは信頼できない。
このような信頼できないサブセットを特定するための統計的テストであるPreference Proportion Testを導入する。
言語サブセットに対してわずか20のサンプルをアノテートすることで、最近の大規模な多言語転写オーディオデータセットであるX-IPAPack(Zhu et al , 2024)において、10の言語サブセットに対して、体系的な書き起こしエラーを識別することができます。
音素転写の下流タスクのトレーニングモデルでこの低品質データをフィルタリングすることは、大きなメリットをもたらし、特に、オフ・オブ・ディストリビューション言語での録音の相対的な改善は25.7%である。
提案手法は,系統的かつ信頼性の高い多言語データセット監査の道筋をたどる。
Curating datasets that span multiple languages is challenging. To make the collection more scalable, researchers often incorporate one or more imperfect classifiers in the process, like language identification models. These models, however, are prone to failure, resulting in some language subsets being unreliable for downstream tasks. We introduce a statistical test, the Preference Proportion Test, for identifying such unreliable subsets. By annotating only 20 samples for a language subset, we're able to identify systematic transcription errors for 10 language subsets in a recent large multilingual transcribed audio dataset, X-IPAPack (Zhu et al., 2024). We find that filtering this low-quality data out when training models for the downstream task of phonetic transcription brings substantial benefits, most notably a 25.7% relative improvement on transcribing recordings in out-of-distribution languages. Our method lays a path forward for systematic and reliable multilingual dataset auditing. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# オープン量子力学におけるスペクトル密度, 構造ノイズ, アンサンブル平均化
Spectral Densities, Structured Noise and Ensemble Averaging within Open Quantum Dynamics ( http://arxiv.org/abs/2410.04294v1 ) ライセンス: Link先を確認 | Yannick Marcel Holtkamp, Emiliano Godinez-Ramirez, Ulrich Kleinekathöfer, | (参考訳) オープン量子系シミュレーションの最近の進歩は大きな進歩をもたらしたが、数値的に正確な手法の適用性は依然として比較的小さなシステムに限られている。
したがって、より近似的な手法は計算効率が良く、拡張された時間スケールでの大規模システムのシミュレーションを可能にしている。
本研究では,シュレーディンガー方程式(NISE)の数値積分法について述べる。
まず,熱化NISE方式における熱化変種である熱化NISEの長時間挙動を改善するためのアンサンブル拡張手法を提案する。
第2に、任意の構成雑音に対してノイズ生成アルゴリズムを用いることにより、NISEを(高度に)構造化されたスペクトル密度と併用する方法を実証する。
このアルゴリズムはまた、分子動力学または量子力学/分子力学軌道に沿った励起状態計算からスペクトル密度を決定するためのベストプラクティスを確立するツールとしても機能する。
最後に, NISE手法による吸収スペクトルの計算能力を評価し, 個体群動態を判定することで, 提案手法の有用性を実証する。
Although recent advances in simulating open quantum systems have lead to significant progress, the applicability of numerically exact methods is still restricted to rather small systems. Hence, more approximate methods remain relevant due to their computational efficiency, enabling simulations of larger systems over extended timescales. In this study, we present advances for one such method, namely the Numerical Integration of Schr\"odinger Equation (NISE). Firstly, we introduce a modified ensemble-averaging procedure that improves the long-time behavior of the thermalized variant of the NISE scheme, termed Thermalized NISE. Secondly, we demonstrate how to use the NISE in conjunction with (highly) structured spectral densities by utilizing a noise generating algorithm for arbitrary structured noise. This algorithm also serves as a tool for establishing best practices in determining spectral densities from excited state calculations along molecular dynamics or quantum mechanics/molecular mechanics trajectories. Finally, we assess the ability of the NISE approach to calculate absorption spectra and demonstrate the utility of the proposed modifications by determining population dynamics. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 量子センシングのための平均ハミルトニアン理論を超えて
Beyond Average Hamiltonian Theory for Quantum Sensing ( http://arxiv.org/abs/2410.04296v1 ) ライセンス: Link先を確認 | Jner Tzern Oon, Sebastian C. Carrasco, Connor A. Hart, George Witt, Vladimir S. Malinovsky, Ronald Walsworth, | (参考訳) 平均ハミルトニアン理論(AHT)の磁気共鳴や量子センシングへの応用は、例えば、スピン力学の効率的な近似を提供しながら、系の進化の重要な物理的特性を保持しながらパルスシーケンスの設計を知らせる。
しかし、AHT予測は固体スピンを感知するなど、多くの一般的な実験条件で分解される。
ここでは、急速エコーのような特定の対称性により、AHTは摂動限界を超える精度を保つことができる。
ターゲット信号に対するセンサ応答を正確に決定する手法が提示され、これはAHT収束の体制を超えて有効である。
AHTアプローチを超えることで、様々な量子センシングプラットフォーム、ハミルトン工学、量子多体現象のプローブなど、相補的な解析的および数値的手法を利用する量子制御技術の新たな機会がもたらされる。
The application of average Hamiltonian theory (AHT) to magnetic resonance and quantum sensing informs pulse sequence design, for example, by providing efficient approximations of spin dynamics while retaining important physical characteristics of system evolution. However, AHT predictions break down in many common experimental conditions, including for sensing with solid-state spins. Here we establish that certain symmetries, such as rapid echos, allow AHT to remain accurate well beyond the perturbative limit. An exact method is presented to determine the sensor response to a target signal, which stays valid beyond the regime of AHT convergence. This beyond AHT approach enables new opportunities in quantum control techniques that leverage complementary analytical and numerical methods, with applications in a variety of quantum sensing platforms, Hamiltonian engineering, and probes of quantum many-body phenomena. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# ブートストラップサンプリングレートが1.0を超えると、森林のランダムなパフォーマンスが向上する可能性がある
Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance ( http://arxiv.org/abs/2410.04297v1 ) ライセンス: Link先を確認 | Stanisław Kaźmierczak, Jacek Mańdziuk, | (参考訳) ランダムフォレストはブートストラップサンプリングを使用して、各コンポーネントツリーの個別のトレーニングセットを作成する。
これは、元のトレーニングセットのサイズに等しいインスタンス数(N$)で置換されたサンプリングを伴う。
研究文献は、$N$未満の図面も満足な結果をもたらすことを示唆している。
各ブートストラップサンプルの観察回数とトレーニングインスタンスの総数との比率をブートストラップレート (BR) と呼ぶ。
N$以上の観測(BR $>$ 1)をサンプリングすることは、限られた範囲でしか研究されておらず、一般的には効果がないことが証明されている。
本稿では,36種類のデータセットを用いてこのアプローチを再検討し,1.2から5.0までのBR値について検討する。
従来の結果とは対照的に,このようなパラメータ化は,標準設定 (BR $\leq$ 1) と比較して,分類精度が統計的に有意に向上する可能性が示唆された。
さらに、最適なBRが依存するものについて検討し、ランダムな森林ハイパーパラメータへの依存よりもデータセットの特性であると結論づける。
最後に、最適なBRが与えられたデータセットに対して$\leq$1か$>$1であるかを予測し、実験構成に応じて81.88\%から88.81\%の精度を達成するバイナリ分類器を開発する。
Random forests utilize bootstrap sampling to create an individual training set for each component tree. This involves sampling with replacement, with the number of instances equal to the size of the original training set ($N$). Research literature indicates that drawing fewer than $N$ observations can also yield satisfactory results. The ratio of the number of observations in each bootstrap sample to the total number of training instances is called the bootstrap rate (BR). Sampling more than $N$ observations (BR $>$ 1) has been explored in the literature only to a limited extent and has generally proven ineffective. In this paper, we re-examine this approach using 36 diverse datasets and consider BR values ranging from 1.2 to 5.0. Contrary to previous findings, we show that such parameterization can result in statistically significant improvements in classification accuracy compared to standard settings (BR $\leq$ 1). Furthermore, we investigate what the optimal BR depends on and conclude that it is more a property of the dataset than a dependence on the random forest hyperparameters. Finally, we develop a binary classifier to predict whether the optimal BR is $\leq$ 1 or $>$ 1 for a given dataset, achieving between 81.88\% and 88.81\% accuracy, depending on the experiment configuration. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 予測ビュー合成に基づくキーポイント型宇宙機姿勢推定のためのテスト時間適応
Test-Time Adaptation for Keypoint-Based Spacecraft Pose Estimation Based on Predicted-View Synthesis ( http://arxiv.org/abs/2410.04298v1 ) ライセンス: Link先を確認 | Juan Ignacio Bravo Pérez-Villar, Álvaro García-Martín, Jesús Bescós, Juan C. SanMiguel, | (参考訳) 訓練中の実際の状態を再現するのは難しいため、宇宙船の監督されたアルゴリズムは、合成データに基づいて訓練し、実際の運用データに適用した場合、性能が低下する。
そこで本研究では,近接操作中に取得した画像間の時間的冗長性を利用したテスト時間適応手法を提案する。
我々のアプローチでは、連続した宇宙船画像から特徴を抽出し、そのポーズを推定し、その情報を用いて再構成されたビューを合成する。
我々は,合成された視点を実際の視点と比較することにより,自己指導型学習目標を確立する。
トレーニング中はポーズ推定と画像合成の両方を監督し,テスト時には自己監督対象を最適化する。
さらに、宇宙船のキーポイント構造に整合しない解を避けるために、正規化損失を導入する。
私たちのコードは、https://github.com/JotaBravo/spacecraft-tta.comで利用可能です。
Due to the difficulty of replicating the real conditions during training, supervised algorithms for spacecraft pose estimation experience a drop in performance when trained on synthetic data and applied to real operational data. To address this issue, we propose a test-time adaptation approach that leverages the temporal redundancy between images acquired during close proximity operations. Our approach involves extracting features from sequential spacecraft images, estimating their poses, and then using this information to synthesise a reconstructed view. We establish a self-supervised learning objective by comparing the synthesised view with the actual one. During training, we supervise both pose estimation and image synthesis, while at test-time, we optimise the self-supervised objective. Additionally, we introduce a regularisation loss to prevent solutions that are not consistent with the keypoint structure of the spacecraft. Our code is available at: https://github.com/JotaBravo/spacecraft-tta. | 翻訳日:2024-11-02 08:39:47 公開日:2024-10-05 |
# 物理インフォームドディープラーニングと数値手法の統合によるロバストダイナミクスの発見とパラメータ推定
Integrating Physics-Informed Deep Learning and Numerical Methods for Robust Dynamics Discovery and Parameter Estimation ( http://arxiv.org/abs/2410.04299v1 ) ライセンス: Link先を確認 | Caitlin Ho, Andrea Arnold, | (参考訳) 事前の物理知識を機械学習に組み込むことは、より堅牢で解釈可能なアルゴリズムにつながる。
本研究では、動的システム理論における2つの課題、すなわち動的発見とパラメータ推定を解くために、ディープラーニング技術と微分方程式の古典的数値法を組み合わせる。
その結果,振動およびカオス力学を示す一連のテスト問題に対する提案手法の有効性が示された。
ランゲ・クッタ法や線形多段階法といった様々な数値スキームの性能を比較する際に,空間的および時間的離散化スキームと数値的方法順序の適切な選択を条件として,システムダイナミクスの予測と物理パラメータの推定において有望な結果が得られた。
Incorporating a priori physics knowledge into machine learning leads to more robust and interpretable algorithms. In this work, we combine deep learning techniques and classic numerical methods for differential equations to solve two challenging problems in dynamical systems theory: dynamics discovery and parameter estimation. Results demonstrate the effectiveness of the proposed approaches on a suite of test problems exhibiting oscillatory and chaotic dynamics. When comparing the performance of various numerical schemes, such as the Runge-Kutta and linear multistep families of methods, we observe promising results in predicting the system dynamics and estimating physical parameters, given appropriate choices of spatial and temporal discretization schemes and numerical method orders. | 翻訳日:2024-11-02 08:30:03 公開日:2024-10-05 |
# ロボティクスとソフトウェアエンジニアリング: Stackoverflowに関するロボティクスの議論を振り返る
Robotics Meets Software Engineering: A First Look at the Robotics Discussions on Stackoverflow ( http://arxiv.org/abs/2410.04304v1 ) ライセンス: Link先を確認 | Hisham Kidwai, Danika Passler Bates, Sujana Islam Suhi, James Young, Shaiful Chowdhury, | (参考訳) ロボットは人間の能力を大幅に向上させることができるが、その開発には様々な課題がある。
ソフトウェア工学とロボット工学の研究者たちが共同で行ったこの研究は、StackOverflowに投稿された質問を分析して、ロボット開発者が直面する課題を特定しようとしている。
我々は500のロボット関連質問のフィルタリングデータセットを作成し、それらの特徴をプラットフォームからランダムに選択された質問と比較した。
以上の結果から,ロボットコミュニティの規模が小さいほど,これらの質問の視認性が制限され,回答が少なくなることが示唆された。
ロボットに関する質問の数は着実に増えているが、StackOverflowの平均的な質問や回答ほど人気はない。
このことは、ロボティクスの実践者が直面する課題に焦点を当てた研究の重要性を浮き彫りにしている。
その結果,500件のロボティクス質問のテーマ分析を行い,共通調査パターンを明らかにした。
ロボットムーブメントに関する質問が最も頻繁である11のテーマを特定した。
年次トレンドの分析によると、2009年から2014年にかけて、仕様など特定のテーマが顕著であったが、それ以来、関連性は低下している。
対照的に、Moving、Actuator、Remoteといったテーマは長年にわたって議論を支配してきた。
これらの結果から,ロボット工学における課題は時間とともに変化する可能性が示唆された。
特に、ロボット工学の質問の大多数は、なぜ、それとも何なのかという質問ではなく、どのように質問するか、実践者にとって十分なリソースが不足していることを明らかにするものである。
これらの知見は、ロボット工学の実践者のための効果的でタイムリーな教材の開発において、研究者や教育者の指導に役立つ。
Robots can greatly enhance human capabilities, yet their development presents a range of challenges. This collaborative study, conducted by a team of software engineering and robotics researchers, seeks to identify the challenges encountered by robot developers by analyzing questions posted on StackOverflow. We created a filtered dataset of 500 robotics-related questions and examined their characteristics, comparing them with randomly selected questions from the platform. Our findings indicate that the small size of the robotics community limits the visibility of these questions, resulting in fewer responses. While the number of robotics questions has been steadily increasing, they remain less popular than the average question and answer on StackOverflow. This underscores the importance of research that focuses on the challenges faced by robotics practitioners. Consequently, we conducted a thematic analysis of the 500 robotics questions to uncover common inquiry patterns. We identified 11 major themes, with questions about robot movement being the most frequent. Our analysis of yearly trends revealed that certain themes, such as Specifications, were prominent from 2009 to 2014 but have since diminished in relevance. In contrast, themes like Moving, Actuator, and Remote have consistently dominated discussions over the years. These findings suggest that challenges in robotics may vary over time. Notably, the majority of robotics questions are framed as How questions, rather than Why or What questions, revealing the lack of enough resources for the practitioners. These insights can help guide researchers and educators in developing effective and timely educational materials for robotics practitioners. | 翻訳日:2024-11-02 08:30:03 公開日:2024-10-05 |
# FidelityとFisher-Buresパス長の操作的意味
Operational meaning of the fidelity and the Fisher-Bures path length ( http://arxiv.org/abs/2410.04307v1 ) ライセンス: Link先を確認 | Lajos Diósi, | (参考訳) 我々は、経路に沿ったほぼ可逆な量子状態輸送における最小エントロピー生成は、フィッシャー・バーンズ測度により測定された経路長の単純な関数であることを示す。
したがって、測地線に沿った最小エントロピー生成は、忠実性の単純な関数である。
したがって、経路長の鋭い値、または統計的長さ、および忠実度は、ほぼ可逆な状態輸送における残余の不可逆性を定量化するための操作的意味を得る。
ウルマンの定理に基づくフィデリティの操作的解釈と比較すると、この提案は精製された状態に対する拡張的な操作を前提としない。
古典的な限界に関しては、バタチャリヤのフィデリティは80年経ってから鋭い運用上の意味を持つ。
We show that the minimum entropy production in near-reversible quantum state transport along a path is a simple function of the path length measured according to the Fisher--Bures metrics. Consequently, the minimum entropy production along a geodesics is the simple function of fidelity. Hence the sharp values of path lengths, also called statistical lengths, and of fidelities obtain operational meaning to quantify the residual irreversibility in near-reversible state transport. Compared to fidelity's operative interpretations based on Uhlmann's theorem, our proposal does not assume extended operations on the purified states. As to the classical limit, the Bhattacharryya fidelity obtains a sharp operational meaning after eighty years. | 翻訳日:2024-11-02 08:30:03 公開日:2024-10-05 |
# スパースセンサによる隠れた汚染ホットスポットの発見
Discovering Hidden Pollution Hotspots Using Sparse Sensor Measurements ( http://arxiv.org/abs/2410.04309v1 ) ライセンス: Link先を確認 | Ankit Bhardwaj, Ananth Balashankar, Shiva Iyer, Nita Soans, Anant Sudarshan, Rohini Pande, Lakshminarayanan Subramanian, | (参考訳) 都市部における大気汚染の効果的な管理は、監視と緩和戦略の両方に依存しているが、高コストはしばしばセンサーネットワークをいくつかの主要な汚染ホットスポットに制限する。
本稿では,ニューデリーの公共センサネットワークは,すべての汚染ホットスポットを特定するには不十分であることを示す。
これに対応するために、28の低コストセンサーで市のネットワークを拡張し、30ヶ月(2018年5月~2020年11月)でPM2.5濃度を監視しました。
分析の結果、189のホットスポットが発見され、政府のネットワークですでに検出されている660を補った。
ニューデリーの文脈では,高密度のマルチモーダルデータ(エミッションインベントリ,気象学など)を必要とする深層学習モデルと比較して,センサデータに制限のある空間時間クリギングの方が,より堅牢で一般化可能なアプローチであることがわかった。
スペース・タイム・クリギング(Space-Time Kriging)を用いて、50%のセンサー故障でホットスポットの検出において98%の精度と95.4%のリコールを達成した。
さらに、この方法はセンサーのない地域でホットスポットを予測するのに有効であることが証明され、50%のセンサーが欠けた場合には95.3%の精度と88.5%のリコールが達成された。
調査の結果、ニューデリーの人口のうち約2300万人が少なくとも半数は汚染ホットスポットに曝されていることがわかった。
また,公的なセンサネットワークの範囲を超えて,汚染対策に優先すべき領域を特定した。
これらの結果は、より包括的な監視ネットワークの必要性を強調し、同様のリソース制約に直面した都市において、Space-Time Krigingを実行可能なソリューションとして提案する。
Effective air pollution management in urban areas relies on both monitoring and mitigation strategies, yet high costs often limit sensor networks to a few key pollution hotspots. In this paper, we show that New Delhi's public sensor network is insufficient for identifying all pollution hotspots. To address this, we augmented the city's network with 28 low-cost sensors, monitoring PM 2.5 concentrations over 30 months (May 2018 to November 2020). Our analysis uncovered 189 additional hotspots, supplementing the 660 already detected by the government network. We observed that Space-Time Kriging with limited but accurate sensor data provides a more robust and generalizable approach for identifying these hotspots, as compared to deep learning models that require large amounts of fine-grained multi-modal data (emissions inventory, meteorology, etc.) which was not reliably, frequently and accurately available in the New Delhi context. Using Space-Time Kriging, we achieved 98% precision and 95.4% recall in detecting hotspots with 50% sensor failure. Furthermore, this method proved effective in predicting hotspots in areas without sensors, achieving 95.3% precision and 88.5% recall in the case of 50% missing sensors. Our findings revealed that a significant portion of New Delhi's population, around 23 million people, was exposed to pollution hotspots for at least half of the study period. We also identified areas beyond the reach of the public sensor network that should be prioritized for pollution control. These results highlight the need for more comprehensive monitoring networks and suggest Space-Time Kriging as a viable solution for cities facing similar resource constraints. | 翻訳日:2024-11-02 08:30:03 公開日:2024-10-05 |
# PalmBench: モバイルプラットフォームにおける圧縮された大規模言語モデルの総合ベンチマーク
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms ( http://arxiv.org/abs/2410.05315v1 ) ライセンス: Link先を確認 | Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee, | (参考訳) モバイル機器に大規模言語モデル(LLM)をローカルにデプロイすることは、プライバシ上の懸念やネットワーク接続による非現実的な理由から、リモートクラウドサーバにデータを転送することが望ましくないシナリオにおいて有利である。
近年の進歩(MLC、2023a、Gerganov、2023)はLLMの局所的な展開を促進している。
しかし、ローカルデプロイメントは、特にモバイルデバイスのハードウェア制約の中で、品質(生成パフォーマンス)、レイテンシ、スループットのバランスをとる上で、課題も示している。
本稿では,モバイル端末上でLCMを評価可能な軽量でオールインワンな自動ベンチマークフレームワークについて紹介する。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMの包括的なベンチマークを提供する。
ハイエンドGPUクラスタのフルスケールモデルを評価する従来のベンチマークとは異なり、私たちは、モバイルデバイス上の圧縮モデルに対するリソース効率(メモリと電力消費)と有害な出力を評価することに重点を置いています。
私たちの重要な観察は
一 移動プラットフォーム間のエネルギー効率及びスループットの差異
二 量子化がメモリ使用量、GPU実行時間、消費電力に与える影響
三 量子化モデルの非量子化モデルと比較しての精度及び性能劣化
四 携帯端末上で圧縮LDMによって発生する幻覚及び毒性の頻度
Deploying large language models (LLMs) locally on mobile devices is advantageous in scenarios where transmitting data to remote cloud servers is either undesirable due to privacy concerns or impractical due to network connection. Recent advancements (MLC, 2023a; Gerganov, 2023) have facilitated the local deployment of LLMs. However, local deployment also presents challenges, particularly in balancing quality (generative performance), latency, and throughput within the hardware constraints of mobile devices. In this paper, we introduce our lightweight, all-in-one automated benchmarking framework that allows users to evaluate LLMs on mobile devices. We provide a comprehensive benchmark of various popular LLMs with different quantization configurations (both weights and activations) across multiple mobile platforms with varying hardware capabilities. Unlike traditional benchmarks that assess full-scale models on high-end GPU clusters, we focus on evaluating resource efficiency (memory and power consumption) and harmful output for compressed models on mobile devices. Our key observations include i) differences in energy efficiency and throughput across mobile platforms; ii) the impact of quantization on memory usage, GPU execution time, and power consumption; and iii) accuracy and performance degradation of quantized models compared to their non-quantized counterparts; and iv) the frequency of hallucinations and toxic content generated by compressed LLMs on mobile devices. | 翻訳日:2024-11-01 19:37:51 公開日:2024-10-05 |
# 協調検証によるスケーリング推論計算によるLLM推論の改善
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification ( http://arxiv.org/abs/2410.05318v1 ) ライセンス: Link先を確認 | Zhenwen Liang, Ye Liu, Tong Niu, Xiangliang Zhang, Yingbo Zhou, Semih Yavuz, | (参考訳) 大規模言語モデル(LLM)の一般的な能力は著しく進歩しているが、特に数学やコード推論のような複雑なタスクにおいて、一貫性のある正確な推論に苦しむ。
1つの重要な制限は、LLMが主に正しい解に基づいて訓練されており、エラーを検出して学習する能力が低下し、出力を確実に検証し、ランク付けする能力が損なわれることである。
これを解決するために、複数の推論経路を生成し、検証器を用いて、生成した出力を正確さで評価・ランク付けすることで、推論時間計算をスケールアップする。
そこで本研究では,複数の LLM が生成する数学とコードタスクの正解と誤解からなる包括的データセットを提案する。
この多様な解の集合は、検証者が正しい答えをより効果的に識別し、間違った出力からランク付けすることを可能にする。
提案手法は,既存手法の広範囲な比較に基づいて,提案手法を選択した。
さらに,異なる推論戦略の独特な長所を活かすために,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
CoTは、解釈可能性を高める明確なステップバイステップの推論プロセスを提供し、PoTは実行可能であり、正確でエラーに敏感な検証メカニズムを提供する。
両者の強みを両立させることで,提案手法は推論検証の精度と信頼性を大幅に向上させる。
検証器であるMath-RevとCode-Revは,GSM8kやMATHなどのベンチマークにおける最先端の成果を達成し,Qwen-72B-InstructによるGPT-4oよりも優れていた。
Despite significant advancements in the general capability of large language models (LLMs), they continue to struggle with consistent and accurate reasoning, especially in complex tasks such as mathematical and code reasoning. One key limitation is that LLMs are trained primarily on correct solutions, reducing their ability to detect and learn from errors, which hampers their ability to reliably verify and rank outputs. To address this, we scale up the inference-time computation by generating multiple reasoning paths and employing verifiers to assess and rank the generated outputs by correctness. To facilitate this, we introduce a comprehensive dataset consisting of correct and incorrect solutions for math and code tasks, generated by multiple LLMs. This diverse set of solutions enables verifiers to more effectively distinguish and rank correct answers from erroneous outputs. The training methods for building verifiers were selected based on an extensive comparison of existing approaches. Moreover, to leverage the unique strengths of different reasoning strategies, we propose a novel collaborative method integrating Chain-of-Thought (CoT) and Program-of-Thought (PoT) solutions for verification. CoT provides a clear, step-by-step reasoning process that enhances interpretability, while PoT, being executable, offers a precise and error-sensitive validation mechanism. By taking both of their strengths, our approach significantly improves the accuracy and reliability of reasoning verification. Our verifiers, Math-Rev and Code-Rev, demonstrate substantial performance gains to existing LLMs, achieving state-of-the-art results on benchmarks such as GSM8k and MATH and even outperforming GPT-4o with Qwen-72B-Instruct as the reasoner. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# OCONモデル:分配可能な教師付き分類のための古いが金の解
The OCON model: an old but gold solution for distributable supervised classification ( http://arxiv.org/abs/2410.05320v1 ) ライセンス: Link先を確認 | Stefano Giacomelli, Marco Giordano, Claudia Rinaldi, | (参考訳) 本稿では, 音声認識研究分野における母音音素分類ケーススタディに特化して, 教師付き分類タスクに対するワンクラスアプローチとワンクラスネットワークモデルの構造化の適用について紹介する。
疑似ニューラルアーキテクチャサーチとハイパーパラメータ 情報グリッドサーチ手法によるチューニング実験により、現在の複雑なアーキテクチャ(90.0~93.7%)に匹敵する分類精度を達成する。
その単純さにもかかわらず、我々のモデルは言語コンテキストと分散適用性の一般化を優先し、関連する統計および性能指標によって支持される。
実験コードはGitHubで公開されています。
This paper introduces to a structured application of the One-Class approach and the One-Class-One-Network model for supervised classification tasks, specifically addressing a vowel phonemes classification case study within the Automatic Speech Recognition research field. Through pseudo-Neural Architecture Search and Hyper-Parameters Tuning experiments conducted with an informed grid-search methodology, we achieve classification accuracy comparable to nowadays complex architectures (90.0 - 93.7%). Despite its simplicity, our model prioritizes generalization of language context and distributed applicability, supported by relevant statistical and performance metrics. The experiments code is openly available at our GitHub. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# ノイズの結晶化と液体ノイズ:画像拡散モデルによるゼロショット映像生成
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models ( http://arxiv.org/abs/2410.05322v1 ) ライセンス: Link先を確認 | Muhammad Haaris Khan, Hadrien Reynaud, Bernhard Kainz, | (参考訳) 画像生成には強力だが、一貫性があり、制御可能なビデオは、拡散モデルの長年の問題である。
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
さらに、現在ビデオモデルは出力運動の限られた制御を提供する。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
これらの手法は、遅延拡散モデルにおける入力ノイズを変化させることで、ビデオパラメータ(ゼロショット)を訓練することなく、既存の画像モデルに適用することができる。
2つの補完方法が提示される。
ノイズ結晶化は、一貫性を保証するが、遅延埋め込みサイズが小さくなるため、大きな動きに制限される。
液体ノイズは、解像度の制限なしに、より高い柔軟性のために一貫性を交換する。
コアコンセプトは、リライト、シームレスなアップスケーリング、ビデオスタイルの転送の改善といった他のアプリケーションも可能にする。
さらに,潜伏拡散モデルに用いるVAE埋め込みの探索を行い,人間の解釈可能な潜伏空間の手法のような興味深い理論的考察を行った。
Although powerful for image generation, consistent and controllable video is a longstanding problem for diffusion models. Video models require extensive training and computational resources, leading to high costs and large environmental impacts. Moreover, video models currently offer limited control of the output motion. This paper introduces a novel approach to video generation by augmenting image diffusion models to create sequential animation frames while maintaining fine detail. These techniques can be applied to existing image models without training any video parameters (zero-shot) by altering the input noise in a latent diffusion model. Two complementary methods are presented. Noise crystallization ensures consistency but is limited to large movements due to reduced latent embedding sizes. Liquid noise trades consistency for greater flexibility without resolution limitations. The core concepts also allow other applications such as relighting, seamless upscaling, and improved video style transfer. Furthermore, an exploration of the VAE embedding used for latent diffusion models is performed, resulting in interesting theoretical insights such as a method for human-interpretable latent spaces. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# 不完全粗粒化から完全細粒化:時空間データ再構成のための2段階フレームワーク
From Incomplete Coarse-Grained to Complete Fine-Grained: A Two-Stage Framework for Spatiotemporal Data Reconstruction ( http://arxiv.org/abs/2410.05323v1 ) ライセンス: Link先を確認 | Ziyu Sun, Haoyang Su, En Wang, Funing Yang, Yongjian Yang, Wenbin Liu, | (参考訳) 近年,各種センサの急速な発展に伴い,時空間データの重要性が高まっている。
しかし、コストとプライバシの懸念により、収集されたデータは不完全で粗くなり、特定のタスクに制限されることが多い。
そこで本稿では,スパースと粗粒の観測から完全かつきめ細かなデータを推定することを目的とした,時空間データ再構成という新しいタスクを提案する。
これを実現するために,Denoising Diffusion Probabilistic Model (DDPM)を基盤とした2段階データ推論フレームワークDiffReconを導入する。
第1段階では,スパースデータポイント間の空間相関を利用するために設計された強力なエンコーダであるST-PointFormerによって拡張された拡散モデルであるDiffusion-Cを提案する。
その後、第2ステージではDiffusion-Fを導入し、提案されたT-PatternNetを組み込んでシーケンシャルデータ内の時間パターンをキャプチャする。
これら2つの段階は、不完全で粗い粒度の観測から完全な、きめ細かいデータを推測できるエンドツーエンドのフレームワークを形成する。
提案手法の優位性を示すために,複数の実世界のデータセットを用いて実験を行った。
With the rapid development of various sensing devices, spatiotemporal data is becoming increasingly important nowadays. However, due to sensing costs and privacy concerns, the collected data is often incomplete and coarse-grained, limiting its application to specific tasks. To address this, we propose a new task called spatiotemporal data reconstruction, which aims to infer complete and fine-grained data from sparse and coarse-grained observations. To achieve this, we introduce a two-stage data inference framework, DiffRecon, grounded in the Denoising Diffusion Probabilistic Model (DDPM). In the first stage, we present Diffusion-C, a diffusion model augmented by ST-PointFormer, a powerful encoder designed to leverage the spatial correlations between sparse data points. Following this, the second stage introduces Diffusion-F, which incorporates the proposed T-PatternNet to capture the temporal pattern within sequential data. Together, these two stages form an end-to-end framework capable of inferring complete, fine-grained data from incomplete and coarse-grained observations. We conducted experiments on multiple real-world datasets to demonstrate the superiority of our method. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# ガン分類のための高度なグラフニューラルネットワークを用いたマルチオミクス統合の比較解析
Comparative Analysis of Multi-Omics Integration Using Advanced Graph Neural Networks for Cancer Classification ( http://arxiv.org/abs/2410.05325v1 ) ライセンス: Link先を確認 | Fadi Alharbi, Aleksandar Vakanski, Boyu Zhang, Murtada K. Elbashir, Mohanad Mohammed, | (参考訳) マルチオミクスデータは、がん分類のための計算手法の進歩にますます活用されている。
しかし、マルチオミクスデータ統合は、高次元性、データ複雑さ、および様々なオミクスタイプの異なる特徴により、大きな課題を生んでいる。
本研究は、これらの課題に対処し、グラフ畳み込みネットワーク(GCN)、グラフアテンションネットワーク(GAT)、グラフトランスフォーマーネットワーク(GTN)に基づくマルチオミクス(MO)統合のための3つのグラフニューラルネットワークアーキテクチャを評価し、31種類のがんタイプと正常な組織を分類する。
マルチオミクスデータの高次元性を実現するために, LASSO-MOGCN, LASSO-MOGAT, LASSO-MOTGNモデルを作成した。
メッセンジャーRNA,マイクロRNA,DNAメチル化データのマルチオミクス統合のための遺伝子相関行列とタンパク質-タンパク質相互作用ネットワークを用いて,ネットワークのグラフ構造を構築した。
このようなデータ統合により、ネットワークは生物学的実体間の重要な関係に動的に集中し、モデル性能と解釈可能性の両方を改善することができる。
モデルの中で、相関グラフ構造を持つLASSO-MOGATは最先端の精度(95.9%)を達成し、精度、リコール、F1スコアでLASSO-MOGCNとLASSO-MOTGNモデルを上回った。
本研究は, マルチオミクスデータをグラフベースアーキテクチャに統合することにより, がん生物学の理解を深め, がんの進行に寄与する分子パターンを明らかにすることにより, がんの分類性能を高めることを実証した。
Multi-omics data is increasingly being utilized to advance computational methods for cancer classification. However, multi-omics data integration poses significant challenges due to the high dimensionality, data complexity, and distinct characteristics of various omics types. This study addresses these challenges and evaluates three graph neural network architectures for multi-omics (MO) integration based on graph-convolutional networks (GCN), graph-attention networks (GAT), and graph-transformer networks (GTN) for classifying 31 cancer types and normal tissues. To address the high-dimensionality of multi-omics data, we employed LASSO (Least Absolute Shrinkage and Selection Operator) regression for feature selection, leading to the creation of LASSO-MOGCN, LASSO-MOGAT, and LASSO-MOTGN models. Graph structures for the networks were constructed using gene correlation matrices and protein-protein interaction networks for multi-omics integration of messenger-RNA, micro-RNA, and DNA methylation data. Such data integration enables the networks to dynamically focus on important relationships between biological entities, improving both model performance and interpretability. Among the models, LASSO-MOGAT with a correlation-based graph structure achieved state-of-the-art accuracy (95.9%) and outperformed the LASSO-MOGCN and LASSO-MOTGN models in terms of precision, recall, and F1-score. Our findings demonstrate that integrating multi-omics data in graph-based architectures enhances cancer classification performance by uncovering distinct molecular patterns that contribute to a better understanding of cancer biology and potential biomarkers for disease progression. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# 初期のサイクル内部インピーダンスによりMLベースのバッテリーサイクル寿命予測が可能に
Early-Cycle Internal Impedance Enables ML-Based Battery Cycle Life Predictions Across Manufacturers ( http://arxiv.org/abs/2410.05326v1 ) ライセンス: Link先を確認 | Tyler Sours, Shivang Agarwal, Marc Cormier, Jordan Crivelli-Decker, Steffen Ridderbusch, Stephen L. Glazier, Connor P. Aiken, Aayush R. Singh, Ang Xiao, Omar Allam, | (参考訳) リチウムイオン電池の寿命の終了(EOL)を予測することは、電極材料、製造プロセス、セルフォーマット、一般的なデータがないことによる重要な課題である。
電圧容量プロファイルデータにのみ依存する特徴を構成する手法は、通常、セルケミストリーをまたいだ一般化に失敗する。
本研究では、従来の電圧容量特性と直流内部抵抗(DCIR)測定を組み合わせ、より正確で一般化可能なEOL予測を可能にする手法を提案する。
初期サイクルDCIRデータの利用は、内部抵抗成長に関連する臨界劣化機構を捉え、モデルロバスト性を高める。
平均絶対誤差(MAE)が150サイクルである電極組成の異なる製造業者に対して、EOLのサイクル数を予測するモデルが示されている。
このクロスマニュファクチャラーの汎用性は、広範なデータ収集と再トレーニングの必要性を低減し、メーカーが既存のデータセットを使用して新しいバッテリー設計を最適化できるようにする。
さらに、成長を続けるサイクリングデータのエコシステムを強化し、バッテリー材料の開発を加速する取り組みの一環として、新しいDCIR互換データセットがリリースされた。
Predicting the end-of-life (EOL) of lithium-ion batteries across different manufacturers presents significant challenges due to variations in electrode materials, manufacturing processes, cell formats, and a lack of generally available data. Methods that construct features solely on voltage-capacity profile data typically fail to generalize across cell chemistries. This study introduces a methodology that combines traditional voltage-capacity features with Direct Current Internal Resistance (DCIR) measurements, enabling more accurate and generalizable EOL predictions. The use of early-cycle DCIR data captures critical degradation mechanisms related to internal resistance growth, enhancing model robustness. Models are shown to successfully predict the number of cycles to EOL for unseen manufacturers of varied electrode composition with a mean absolute error (MAE) of 150 cycles. This cross-manufacturer generalizability reduces the need for extensive new data collection and retraining, enabling manufacturers to optimize new battery designs using existing datasets. Additionally, a novel DCIR-compatible dataset is released as part of ongoing efforts to enrich the growing ecosystem of cycling data and accelerate battery materials development. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# ティーによる選好からのリワード学習
Reward Learning From Preference With Ties ( http://arxiv.org/abs/2410.05328v1 ) ライセンス: Link先を確認 | Jinsong Liu, Dongdong Ge, Ruihao Zhu, | (参考訳) Reinforcement Learning from Human Feedback (RLHF)では、リワード学習が重要な役割を担い、言語モデルの整合性を確保する。
Bradley-Terry(BT)モデルは、選択された応答と拒否された応答のペアを含むデータセットから人間の好みをキャプチャする一般的な選択肢である。
嗜好モデリングでは、絶対値ではなく、選択された反応と拒否された反応の報酬差に焦点を当てている。
したがって、選好強度の正確な評価は、選好モデリングにおいて最重要となる。
しかし,2つの反応に対する人間の態度は,他者に対する嗜好だけでなく,結びつきも一般的である。
そこで本研究では,ブラドリー・テリーモデル (BTTモデル) の採用により,関係付けされた嗜好に適合し,付加的な情報を活用することを提案する。
我々は, 刺激と応答の真の分布にアクセスできるとしても, 関係を無視することは, 優先強度測定において顕著なバイアスをもたらすことを証明した。
総合的な実験は、嗜好モデルに関係を組み込むことの利点をさらに検証する。
特に、BTTによる微調整は、最先端のオープンソースLLMによってラベル付けされた、人工的な嗜好データセットにおけるBTによる微調整よりも大幅に優れています。
Reward learning plays a pivotal role in Reinforcement Learning from Human Feedback (RLHF), ensuring the alignment of language models. The Bradley-Terry (BT) model stands as the prevalent choice for capturing human preferences from datasets containing pairs of chosen and rejected responses. In preference modeling, the focus is not on absolute values but rather on the reward difference between chosen and rejected responses, referred to as preference strength. Thus, precise evaluation of preference strength holds paramount importance in preference modeling. However, an easily overlooked factor significantly affecting preference strength measurement is that human attitudes towards two responses may not solely indicate a preference for one over the other and ties are also a common occurrence. To address this, we propose the adoption of the generalized Bradley-Terry model -- the Bradley-Terry model with ties (BTT) -- to accommodate tied preferences, thus leveraging additional information. We prove that even with the access to the true distributions of prompt and response, disregarding ties can lead to a notable bias in preference strength measurement. Comprehensive experiments further validate the advantages of incorporating ties in preference modeling. Notably, fine-tuning with BTT significantly outperforms fine-tuning with BT on synthetic preference datasets with ties, labeled by state-of-the-art open-source LLMs. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# ユリカンス北大西洋流域におけるエルニーノ南方振動と大西洋多側振動の影響
El Nino Southern Oscillation and Atlantic Multidecadal Oscillation Impact on Hurricanes North Atlantic Basin ( http://arxiv.org/abs/2410.05329v1 ) ライセンス: Link先を確認 | Suchit Basineni, | (参考訳) ハリケーンや台風を含む熱帯性サイクロン(TC)は、大きな被害をもたらし、致命的なTCを駆動する要因を理解することが不可欠である。
El Nino Southern Oscillation (ENSO) は、対流圏の渦性、風せん断、大気循環を通じてTCの形成に影響を与える。
大気の変化とは別に、海洋は海面温度(SST)と深海熱量に影響を及ぼす。
これらの大西洋SSTは、大西洋におけるSSTの変動を示すAMO(Atlantic Multidecadal Oscillation)を決定する。
本研究は,北大西洋流域におけるTCsの強度と頻度に及ぼすENSO, AMO, SSTsの影響に焦点を当てた。
AMOとSSTの異常は警戒速度で増加しているが、今後のTCの挙動にどのように影響するかは不明だ。
1950年から2023年までの観測サイクロントラックデータ、Oceanic Nino Index (ONI)、NOAAs Extended Reconstructed SST V5 (ERSST) を用いてみた。
以上の結果から,過去10年間のSSTの増加はTCが強く,温度相のAMO期間はTC頻度の上昇に対応していることがわかった。
一方, 地すべりTCの頻度はLa Nina あるいは ENSO-neutral に比例し, エルニーノは地すべりTCの頻度を減少させる。
このような関係から, ENSO と SST の季節予測性が向上するにつれて, 季節TC 予測が改善する可能性が示唆された。
Tropical cyclones (TCs), including hurricanes and typhoons, cause significant property damage and result in fatalities, making it crucial to understand the factors driving extreme TCs. The El Nino Southern Oscillation (ENSO) influences TC formation through tropospheric vorticity, wind shear, and atmospheric circulations. Apart from atmospheric changes, oceans influence activity through sea surface temperatures (SSTs) and deep ocean heat content. These Atlantic SSTs determine the Atlantic Multidecadal Oscillation (AMO), which indicates SST variability in the Atlantic. This research focuses on ENSO, AMO, and SSTs impact on the strength and frequency of TCs in the North Atlantic Basin. AMO and SST anomalies are increasing at an alarming rate, but it remains unclear how their dynamics will influence future TC behavior. I used observational cyclone track data from 1950 to 2023, the Oceanic Nino Index (ONI), and NOAAs Extended Reconstructed SST V5 (ERSST). I found that Increasing SSTs over the past decade indicate stronger TCs, while warm phase AMO periods correspond with higher TC frequency. Meanwhile, a greater frequency of landfalling TCs can be attributed to La Nina or ENSO-neutral, with El Nino decreasing the frequency of landfalling TCs. Such relationships suggest that as the seasonal predictability of ENSO and SSTs improve, seasonal TC forecasts may improve. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# 小規模事業ローンの信用リスク評価におけるAIの適用:アゼルバイジャン中小企業におけるAIに基づくランダム森林モデルによるデルフィモデルの改善事例
Application of AI in Credit Risk Scoring for Small Business Loans: A case study on how AI-based random forest model improves a Delphi model outcome in the case of Azerbaijani SMEs ( http://arxiv.org/abs/2410.05330v1 ) ライセンス: Link先を確認 | Nigar Karimova, | (参考訳) 本研究は,機械学習ランダム森林モデルの適用により,デルフィモデルの精度と精度が向上することを示す。
調査の背景はアゼルバイジャンの中小企業であり、調査データは企業から収集した金融機関から得られたものである(現地の中小企業に関する公開データがないため、独立してデータを検証することは現実的ではなかった)。
この研究は、両方のモデルの精度、精度、リコール、F-1スコアを使用して、それらを比較し、アルゴリズムをPythonで実行した。
その結果、精度、精度、リコール、F-1は全て大幅に改善した(0.69から0.83、0.65から0.81、0.56から0.77から0.58から0.79まで)。
つまり、信用リスクモデリングにAIモデルを適用することで、金融機関は信用リスクを減らす可能性のあるデフォルトの特定精度を向上させることができる。
さらに、中小企業の信用アクセスの不公平な拒絶は、経済の経済成長に重要な貢献をするであろう。
最後に、アルゴリズムの透明性や履歴データのバイアスといった倫理的な問題は、実際には正当化できないアルゴリズムへの機械的依存を減らすために、AIアルゴリズムに基づいた決定をしながら実施すべきである。
The research investigates how the application of a machine-learning random forest model improves the accuracy and precision of a Delphi model. The context of the research is Azerbaijani SMEs and the data for the study has been obtained from a financial institution which had gathered it from the enterprises (as there is no public data on local SMEs, it was not practical to verify the data independently). The research used accuracy, precision, recall and F-1 scores for both models to compare them and run the algorithms in Python. The findings showed that accuracy, precision, recall and F- 1 all improve considerably (from 0.69 to 0.83, from 0.65 to 0.81, from 0.56 to 0.77 and from 0.58 to 0.79, respectively). The implications are that by applying AI models in credit risk modeling, financial institutions can improve the accuracy of identifying potential defaulters which would reduce their credit risk. In addition, an unfair rejection of credit access for SMEs would also go down having a significant contribution to an economic growth in the economy. Finally, such ethical issues as transparency of algorithms and biases in historical data should be taken on board while making decisions based on AI algorithms in order to reduce mechanical dependence on algorithms that cannot be justified in practice. | 翻訳日:2024-11-01 19:27:19 公開日:2024-10-05 |
# オブジェクト指向ナビゲーションのためのセマンティック環境アトラス
Semantic Environment Atlas for Object-Goal Navigation ( http://arxiv.org/abs/2410.09081v1 ) ライセンス: Link先を確認 | Nuri Kim, Jeongho Park, Mineui Hong, Songhwai Oh, | (参考訳) 本稿では, エンボディエージェントの視覚的ナビゲーション能力を高めるために, セマンティック環境アトラス (SEA) を提案する。
SEAは意味グラフマップを使用して、場所とオブジェクト間の関係を複雑に記述し、ナビゲーションのコンテキストを豊かにする。
これらのマップは、画像観測から構築され、環境内のわずかに符号化されたノードとして視覚的ランドマークをキャプチャする。
SEAは、様々な環境からの複数のセマンティックマップを統合し、場所とオブジェクトの関係の記憶を保持する。
我々は,SEAを効果的に活用するナビゲーションフレームワークを開発し,これらのフレームワークを視覚的ローカライゼーションとオブジェクトゴールナビゲーションタスクによって評価した。
我々のSEAベースのローカライゼーションフレームワークは既存の手法よりも優れており、単一のクエリ画像から位置を正確に識別する。
Habitatのシナリオでの実験結果から,我々の手法は39.0%の成功率,12.4%の最先端技術よりも向上するだけでなく,騒音や作動条件下で頑健性を維持しつつ,計算コストを低く抑えていることがわかった。
In this paper, we introduce the Semantic Environment Atlas (SEA), a novel mapping approach designed to enhance visual navigation capabilities of embodied agents. The SEA utilizes semantic graph maps that intricately delineate the relationships between places and objects, thereby enriching the navigational context. These maps are constructed from image observations and capture visual landmarks as sparsely encoded nodes within the environment. The SEA integrates multiple semantic maps from various environments, retaining a memory of place-object relationships, which proves invaluable for tasks such as visual localization and navigation. We developed navigation frameworks that effectively leverage the SEA, and we evaluated these frameworks through visual localization and object-goal navigation tasks. Our SEA-based localization framework significantly outperforms existing methods, accurately identifying locations from single query images. Experimental results in Habitat scenarios show that our method not only achieves a success rate of 39.0%, an improvement of 12.4% over the current state-of-the-art, but also maintains robustness under noisy odometry and actuation conditions, all while keeping computational costs low. | 翻訳日:2024-10-30 16:48:15 公開日:2024-10-05 |